熱點推薦:
您现在的位置: 電腦知識網 >> 操作系統 >> Windows系統管理 >> 正文

數據倉庫白皮書

2013-11-11 21:44:37  來源: Windows系統管理 

  人們在日常生活中經常會遇到這樣的情況超市的經營者希望將經常被同時購買的商品放在一起以增加銷售保險公司想知道購買保險的客戶一般具有哪些特征醫學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征從而為治愈這種疾病提供一些幫助……對於以上問題現有信息管理系統中的數據分析工具無法給出答案因為無論是查詢統計還是報表其處理方式都是對指定的數據進行簡單的數字處理而不能對這些數據所包含的內在信息進行提取隨著信息管理系統的廣泛應用和數據量激增人們希望能夠提供更高層次的數據分析功能為此數據倉庫應運而生
  
  數據倉庫的概念及特點
  數據倉庫概念始於本世紀年代中期首次出現是在號稱數據倉庫之父William HInmon的《建立數據倉庫》一書中隨著人們對大型數據系統研究管理維護等方面的深刻識認和不斷完善在總結豐富集中多行企業信息的經驗之後為數據倉庫給出了更為精確的定義數據倉庫是在企業管理和決策中面向主題的集成的與時間相關的不可修改的數據集合
  
  數據倉庫並沒有嚴格的數學理論基礎也沒有成熟的基本模式且更偏向於工程具有強烈的工程性因此在技術上人們習慣於從工作過程等方面來分析並按其關鍵技術部份分為數據的抽取存儲與管理以及數據的表現等三個基本方面
  
  ⑴數據的抽取數據的抽取是數據進入倉庫的入口由於數據倉庫是一個獨立的數據環境它需要通過抽取過程將數據從聯機事務處理系統外部數據源脫機的數據存儲介質中導入到數據倉庫數據抽取在技術上主要涉及互連復制增量轉換調度和監控等方面數據倉庫中的數據並不要求與聯機事務處理系統保持實時同步因此數據抽取可以定時進行但多個抽取操作執行的時間相互的順序成敗對數據倉庫中信息的有效性則至關重要
  
  ⑵存儲和管理數據倉庫的真正關鍵是數據的存儲和管理數據倉庫的組織管理方式決定了它有別於傳統數據庫同時也決定了其對外部數據的表現形式要決定采用什麼產品和技術來建立數據倉庫的核心則需要從數據倉庫的技術特點著手分析
  
  ⑶數據的表現數據表現實際上相當於數據倉庫的門面其性能主要集中在多維分析數理統計和數據挖掘方面而多維分析又是數據倉庫的重要表現形式近幾年來由於互聯網的發展使得多維分析領域的工具和產品更加注重提供基於Web前端聯機分析界面而不僅僅是在網上發布數據
  
  提到數據倉庫人們難免會想到僅有一字之差的數據庫那麼數據倉庫和我們經常提到的數據庫有哪些區別呢?為什麼要使用數據倉庫呢?
  
  從數據庫到數據倉庫
  市場需求是技術發展的源動力在數據庫應用的早期計算機系統所處理的是從無到有的問題是傳統手工業務自動化的問題例如銀行的儲蓄系統電信的計費系統它們都屬於典型的聯機事務處理系統在當時一個企業可以簡單地通過擁有聯機事務處理的計算機系統而獲得強大的市場競爭力記得在年代末北京工商銀行率先推出了全市個人儲蓄通存通兌業務廣大市民便將先前就近存於不同銀行的存款一並取出而存入了工商銀行這便是通過聯機事務處理系統而獲得市場優勢的案例其次當時單位容量的聯機存儲介質比現在昂貴得多相對於市場競爭的壓力將大量的歷史業務數據長時間聯機保存去用於分析顯然是過於奢侈了因此聯機事務處理系統只涉及當前數據系統積累下的歷史業務數據往往被轉儲到脫機的環境中此外在計算機系統應用的早期還沒有積累大量的歷史數據可供統計與分析從而聯機事務處理成為整個年代直到年代初數據庫應用的主流
  
  然而應用在不斷地進步當聯機事務處理系統應用到一定階段的時候企業家們便發現單靠擁有聯機事務處理系統已經不足以獲得市場競爭的優勢他們需要對其自身業務的運作以及整個市場相關行業的態勢進行分析從而做出有利的決策同樣就拿北京各銀行的儲蓄業務來說如今各家都擁有了聯網的儲蓄系統再要獲得市場競爭的優勢就需要在決策上下功夫例如在業務密集地區增設自助網點推出有針對性(如某類職業圈某年齡段)的儲蓄服務計劃這些決策需要對大量的業務數據包括歷史業務數據進行分析才能得到而這種基於業務數據的決策分析我們把它稱之為聯機分析處理如果說傳統聯機事務處理強調的是更新數據庫——向數據庫中添加信息那麼聯機分析處理就是要從數據庫中獲取信息利用信息因此著名的數據倉庫專家Ralph Kimball寫道我們花了多年的時間將數據放入數據庫如今是該將它們拿出來的時候了
  
  事實上將大量的業務數據應用於分析和統計原本是一個非常簡單和自然的想法但在實際的操作中人們卻發現要獲得有用的信息並非想象的那麼容易第一所有聯機事務處理強調的是數據更新處理性能和系統的可靠性並不關心數據查詢的方便與快捷聯機分析和事務處理對系統的要求不同同一個數據庫在理論上難以做到兩全第二業務數據往往被存放於分散的異構環境中不易統一查詢訪問而且還有大量的歷史數據處於脫機狀態形同虛設第三業務數據的模式是針對事務處理系統而設計的數據的格式和描述方式並不適合非計算機專業人員進行業務上的分析和統計於是有人感歎年前查詢不到數據是因為數據太少了而今天查詢不到數據是因為數據太多了針對這一問題人們專門為業務的統計分析建立一個數據中心它的數據可以從聯機的事務處理系統異構的外部數據源脫機的歷史業務數據中得到它是一個聯機的系統專門為分析統計和決策支持應用服務通過它可滿足決策支持和聯機分析應用所要求的一切這個數據中心就叫做數據倉庫如果需要給數據倉庫一個定義的話那麼可以把它看作一個作為決策支持系統和聯機分析應用數據源的結構化數據環境數據倉庫所要研究和解決的問題就是從數據庫中獲取信息
  
  那麼數據倉庫與數據庫(主要指關系數據庫)又是什麼關系呢?回想當初 人們固守封閉式系統是出於對事務處理的偏愛 人們選擇關系數據庫是為了方便地獲得信息我們只要翻開 CJ Date博士的經典之作《An Introduction to Database Systems》便會發現今天數據倉庫所要提供的正是當年關系數據庫要所倡導的然而成也蕭何敗也蕭何由於關系數據庫系統在聯機事務處理應用中獲得的巨大成功使得人們已不知不覺將它劃歸為事務處理的范疇過多地關注於事務處理能力的提高使得關系數據庫在面對聯機分析應用時又顯得老革命遇到新問題——今天的數據倉庫對關系數據庫的聯機分析能力提出了更高的要求采用普通關系型數據庫作為數據倉庫在功能和性能上都是不夠的它們必須有專門的改進因此數據倉庫與數據庫的區別不僅僅是應用的方法和目的上的同時也涉及產品和配置
  
  以辯證的眼光來看數據倉庫的興起實際上是數據管理的一種回歸是螺旋式的上升今天的數據庫就好比當年的層次數據庫和網型數據庫它們面向事務處理今天的數據倉庫就好比是當年的關系數據庫它針對聯機分析所不同的是今天的數據倉庫不必再為聯機事務處理的特性而奔忙由於技術的專業化它可更專心於聯機分析領域的發展和探索
  
  從廠商的角度看經過長期發展聯機事務處理系統的市場至年代中期出現飽和跡象其增長速度明顯減慢這導致各大數據庫廠商的傳統業務增長面臨嚴峻挑戰尋求新的業務增長點成為他們的當務之急數據倉庫的興起無疑為數據庫產品創造了巨大的市場它成為世紀末到世紀初數據庫市場的一個新的增長點因此數據倉庫這個詞兒打一開始便伴隨著轟轟烈烈的市場炒作對於廣大用戶來說只有從自身應用需求出發破除技術和概念的神秘性奉行拿來主義避虛就實密切關注技術發展的方向方可獲得滿意的產品解決方案和經濟效益
  
  總之數據倉庫並非是一個僅僅存儲數據的簡單信息庫因為這實際上與傳統數據庫沒有兩樣數據倉庫實際上是一個以大型數據管理信息系統為基礎的附加在這個數據庫系統之上的存儲了從企業所有業務數據庫中獲取的綜合數據的並能利用這些綜合數據為用戶提供經過處理後的有用信息的應用系統如果說傳統數據庫系統的重點與要求是快速准確安全可靠地將數據存進數據庫中的話那麼數據倉庫的重點與要求就是能夠准確安全可靠地從數據庫中取出數據經過加工轉換成有規律信息之後再供管理人員進行分析使用
  IBMOracle等廠商都提出了自己的數據倉庫結構但嚴格說來任何一個數據倉庫結構都是從一個基本框架發展而來實現時再根據分析處理的需要具體增加一些部件其中斯坦福大學WHPS課題組提出的一個基本的數據倉庫模型如圖所示
  
  為了能夠將已有的數據源提取出來並組織成可用於決策分析所需的綜合數據的形式一個數據倉庫的基本體系結構中應有以下幾個基本組成部分
  
  ◆數據源 指為數據倉庫提供最底層數據的運作數據庫系統及外部數據
  
  ◆監視器 負責感知數據源發生的變化並按數據倉庫的需求提取數據
   
  圖 數據倉庫基本體系結構
  
  ◆集成器 將從運作數據庫中提取的數據經過轉換計算綜合等操作集成到數據倉庫中
  
  ◆數據倉庫 存貯已經按企業級視圖轉換的數據供分析處理用根據不同的分析要求數據按不同的綜合程度存儲數據倉庫中還應存儲元數據其中記錄了數據的結構和數據倉庫的任何變化以支持數據倉庫的開發和使
From:http://tw.wingwit.com/Article/os/xtgl/201311/9121.html
    Copyright © 2005-2013 電腦知識網 Computer Knowledge   All rights reserved.