人們在日常生活中經常會遇到這樣的情況
超市的經營者希望將經常被同時購買的商品放在一起
以增加銷售
保險公司想知道購買保險的客戶一般具有哪些特征
醫學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征
從而為治愈這種疾病提供一些幫助……對於以上問題
現有信息管理系統中的數據分析工具無法給出答案
因為無論是查詢
統計還是報表
其處理方式都是對指定的數據進行簡單的數字處理
而不能對這些數據所包含的內在信息進行提取
隨著信息管理系統的廣泛應用和數據量激增
人們希望能夠提供更高層次的數據分析功能
為此
數據倉庫應運而生
數據倉庫的概念及特點
數據倉庫概念始於本世紀
年代中期
首次出現是在號稱
數據倉庫之父
William H
Inmon的《建立數據倉庫》一書中
隨著人們對大型數據系統研究
管理
維護等方面的深刻識認和不斷完善
在總結
豐富
集中多行企業信息的經驗之後
為數據倉庫給出了更為精確的定義
即
數據倉庫是在企業管理和決策中面向主題的
集成的
與時間相關的
不可修改的數據集合
數據倉庫並沒有嚴格的數學理論基礎
也沒有成熟的基本模式
且更偏向於工程
具有強烈的工程性
因此
在技術上人們習慣於從工作過程等方面來分析
並按其關鍵技術部份分為數據的抽取
存儲與管理以及數據的表現等三個基本方面
⑴數據的抽取
數據的抽取是數據進入倉庫的入口
由於數據倉庫是一個獨立的數據環境
它需要通過抽取過程將數據從聯機事務處理系統
外部數據源
脫機的數據存儲介質中導入到數據倉庫
數據抽取在技術上主要涉及互連
復制
增量
轉換
調度和監控等方面
數據倉庫中的數據並不要求與聯機事務處理系統保持實時同步
因此數據抽取可以定時進行
但多個抽取操作執行的時間
相互的順序
成敗對數據倉庫中信息的有效性則至關重要
⑵存儲和管理
數據倉庫的真正關鍵是數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統數據庫
同時也決定了其對外部數據的表現形式
要決定采用什麼產品和技術來建立數據倉庫的核心
則需要從數據倉庫的技術特點著手分析
⑶數據的表現
數據表現實際上相當於數據倉庫的門面
其性能主要集中在多維分析
數理統計和數據挖掘方面
而多維分析又是數據倉庫的重要表現形式
近幾年來由於互聯網的發展
使得多維分析領域的工具和產品更加注重提供基於Web前端聯機分析界面
而不僅僅是在網上發布數據
提到數據倉庫
人們難免會想到僅有一字之差的數據庫
那麼
數據倉庫和我們經常提到的數據庫有哪些區別呢?為什麼要使用數據倉庫呢?
從數據庫到數據倉庫
市場需求是技術發展的源動力
在數據庫應用的早期
計算機系統所處理的是從無到有的問題
是傳統手工業務自動化的問題
例如銀行的儲蓄系統
電信的計費系統
它們都屬於典型的聯機事務處理系統
在當時
一個企業可以簡單地通過擁有聯機事務處理的計算機系統而獲得強大的市場競爭力
記得在
年代末
北京工商銀行率先推出了全市個人儲蓄通存通兌業務
廣大市民便將先前就近存於不同銀行的存款一並取出而存入了工商銀行
這便是通過聯機事務處理系統而獲得市場優勢的案例
其次
當時單位容量的聯機存儲介質比現在昂貴得多
相對於市場競爭的壓力
將大量的歷史業務數據長時間聯機保存去用於分析顯然是過於奢侈了
因此
聯機事務處理系統只涉及當前數據
系統積累下的歷史業務數據往往被轉儲到脫機的環境中
此外
在計算機系統應用的早期
還沒有積累大量的歷史數據可供統計與分析
從而
聯機事務處理成為整個
年代直到
年代初數據庫應用的主流
然而
應用在不斷地進步
當聯機事務處理系統應用到一定階段的時候
企業家們便發現單靠擁有聯機事務處理系統已經不足以獲得市場競爭的優勢
他們需要對其自身業務的運作以及整個市場相關行業的態勢進行分析
從而做出有利的決策
同樣就拿北京各銀行的儲蓄業務來說
如今各家都擁有了聯網的儲蓄系統
再要獲得市場競爭的優勢
就需要在決策上下功夫
例如在業務密集地區增設自助網點
推出有針對性(如
某類職業圈
某年齡段)的儲蓄服務計劃
這些決策需要對大量的業務數據包括歷史業務數據進行分析才能得到
而這種基於業務數據的決策分析
我們把它稱之為聯機分析處理
如果說傳統聯機事務處理強調的是更新數據庫——向數據庫中添加信息
那麼聯機分析處理就是要從數據庫中獲取信息
利用信息
因此
著名的數據倉庫專家Ralph Kimball寫道
我們花了
多年的時間將數據放入數據庫
如今是該將它們拿出來的時候了
事實上
將大量的業務數據應用於分析和統計原本是一個非常簡單和自然的想法
但在實際的操作中
人們卻發現要獲得有用的信息並非想象的那麼容易
第一
所有聯機事務處理強調的是數據更新處理性能和系統的可靠性
並不關心數據查詢的方便與快捷
聯機分析和事務處理對系統的要求不同
同一個數據庫在理論上難以做到兩全
第二
業務數據往往被存放於分散的異構環境中
不易統一查詢訪問
而且還有大量的歷史數據處於脫機狀態
形同虛設
第三
業務數據的模式是針對事務處理系統而設計的
數據的格式和描述方式並不適合非計算機專業人員進行業務上的分析和統計
於是
有人感歎
年前查詢不到數據是因為數據太少了
而今天查詢不到數據是因為數據太多了
針對這一問題
人們專門為業務的統計分析建立一個數據中心
它的數據可以從聯機的事務處理系統
異構的外部數據源
脫機的歷史業務數據中得到
它是一個聯機的系統
專門為分析統計和決策支持應用服務
通過它可滿足決策支持和聯機分析應用所要求的一切
這個數據中心就叫做數據倉庫
如果需要給數據倉庫一個定義的話
那麼可以把它看作一個作為決策支持系統和聯機分析應用數據源的結構化數據環境
數據倉庫所要研究和解決的問題就是從數據庫中獲取信息
那麼數據倉庫與數據庫(主要指關系數據庫)又是什麼關系呢?回想當初
人們固守封閉式系統是出於對事務處理的偏愛
人們選擇關系數據庫是為了方便地獲得信息
我們只要翻開 C
J
Date博士的經典之作《An Introduction to Database Systems》便會發現
今天數據倉庫所要提供的正是當年關系數據庫要所倡導的
然而
成也蕭何
敗也蕭何
由於關系數據庫系統在聯機事務處理應用中獲得的巨大成功
使得人們已不知不覺將它劃歸為事務處理的范疇
過多地關注於事務處理能力的提高
使得關系數據庫在面對聯機分析應用時又顯得
老革命遇到新問題
——今天的數據倉庫對關系數據庫的聯機分析能力提出了更高的要求
采用普通關系型數據庫作為數據倉庫在功能和性能上都是不夠的
它們必須有專門的改進
因此
數據倉庫與數據庫的區別不僅僅是應用的方法和目的上的
同時也涉及產品和配置
以辯證的眼光來看
數據倉庫的興起實際上是數據管理的一種回歸
是螺旋式的上升
今天的數據庫就好比當年的層次數據庫和網型數據庫
它們面向事務處理
今天的數據倉庫就好比是當年的關系數據庫
它針對聯機分析
所不同的是
今天的數據倉庫不必再為聯機事務處理的特性而奔忙
由於技術的專業化
它可更專心於聯機分析領域的發展和探索
從廠商的角度看
經過長期發展
聯機事務處理系統的市場至
年代中期出現飽和跡象
其增長速度明顯減慢
這導致各大數據庫廠商的傳統業務增長面臨嚴峻挑戰
尋求新的業務增長點成為他們的當務之急
數據倉庫的興起無疑為數據庫產品創造了巨大的市場
它成為
世紀末到
世紀初數據庫市場的一個新的增長點
因此
數據倉庫這個詞兒打一開始便伴隨著轟轟烈烈的市場炒作
對於廣大用戶來說
只有從自身應用需求出發
破除技術和概念的神秘性
奉行
拿來主義
避虛就實
密切關注技術發展的方向
方可獲得滿意的產品
解決方案和經濟效益
總之
數據倉庫並非是一個僅僅存儲數據的簡單信息庫
因為這實際上與傳統數據庫沒有兩樣
數據倉庫實際上是一個
以大型數據管理信息系統為基礎的
附加在這個數據庫系統之上的
存儲了從企業所有業務數據庫中獲取的綜合數據的
並能利用這些綜合數據為用戶提供經過處理後的有用信息的應用系統
如果說傳統數據庫系統的重點與要求是快速
准確
安全
可靠地將數據存進數據庫中的話
那麼數據倉庫的重點與要求就是能夠准確
安全
可靠地從數據庫中取出數據
經過加工轉換成有規律信息之後
再供管理人員進行分析使用
IBM
Oracle等廠商都提出了自己的數據倉庫結構
但嚴格說來
任何一個數據倉庫結構都是從一個基本框架發展而來
實現時再根據分析處理的需要具體增加一些部件
其中斯坦福大學
WHPS
課題組提出的一個基本的數據倉庫模型如圖
所示
為了能夠將已有的數據源提取出來
並組織成可用於決策分析所需的綜合數據的形式
一個數據倉庫的基本體系結構中應有以下幾個基本組成部分
◆數據源 指為數據倉庫提供最底層數據的運作數據庫系統及外部數據
◆監視器 負責感知數據源發生的變化
並按數據倉庫的需求提取數據
圖
數據倉庫基本體系結構
◆集成器 將從運作數據庫中提取的數據經過轉換
計算
綜合等操作
集成到數據倉庫中
◆數據倉庫 存貯已經按企業級視圖轉換的數據
供分析處理用
根據不同的分析要求
數據按不同的綜合程度存儲
數據倉庫中還應存儲元數據
其中記錄了數據的結構和數據倉庫的任何變化
以支持數據倉庫的開發和使
From:http://tw.wingwit.com/Article/os/xtgl/201311/9121.html