數據倉庫和數據挖掘是兩個比較大的概念在國外已經非常成熟在國內隨著前幾年企業數據的累計ERP的成熟數據倉庫和數據挖掘開始起步
如何建立數據倉庫和數據挖掘是個不斷值得探討和優化的問題不僅僅在技術上在商業應用上也是如此隨著新的技術和觀念的不斷引入傳統的數據倉庫技術方法有了很大的改變基於數據倉庫的應用也有了新的發展每個企業的數據倉庫根據企業特點不同可以采用非常靈活的選型方法進行選型設計實施本文根據一些比較新的技術特點談談數據倉庫和數據挖掘的架構
從成熟的數據倉庫架構入手來看建立EDW(Enterprise Data Warehouse)是個比較好的選擇EDW是企業數據倉庫對整個企業數據有一個完整的不冗余的保留關鍵歷史變化信息的唯一視圖基於EDW可以建立不同主題的數據集市Data Mart數據集市不同的企業有不同的要求基本上可以分用戶主題業務流主題產品主題等等在EDW的基礎上可以有非常多的主題應用如何建立EDW是個比較重要的問題
建立EDW的關鍵是要把握數據倉庫的本質提供關鍵歷史變化信息可以真實還原企業數據的關鍵歷史視圖也就是現在提到比較多的DSS層在DSS層之下有ODS層做當前數據視圖有緩沖層做增量數據視圖利用增量數據視圖和DSS層數據視圖結合起來利用緩慢變化維或者代理鍵技術從理論上就可以實現DSS層的任何數據歷史變化但是在實際實施DSS層時候一個能提供高性能計算的數據庫和選擇一個切合業務發展的增量時間頻率是兩個關鍵點
緩慢變化維從具體實施過程的可以維護性出發比較統一通用的方法可以采用增加快照開始時間和快照結束時間結合業務系統的主鍵就可以完成DSS層真實企業數據關鍵歷史快照視圖在實施過程中關鍵要把握增量數據緩沖層中三種集合數據純粹新增的數據A關鍵歷史信息發生變化的數據B關鍵歷史信息沒有發生變化的數據C對集合AB都需要增加快照記錄對集合C則采用更新快照記錄這個過程的重點是高性能計算和商業需求
在DSS層之上根據EDW方案種數據庫不同可以采用建立數據集市數據集市基本上可以采用星型模型建立便於多維分析
成熟EDW是用來支持商業應用的EDW之上的一個比較重要的應用是數據挖掘從EDW海量數據中尋找有用的信息支持企業的發展這裡不具體到數據挖掘廠商從一般性的概念上理解更加重要數據挖掘需要EDW能夠基於DSS層的企業數據關鍵歷史視圖重新組合成商業上決策因素集合結合數據挖掘的一些成熟的算法把EDW裡面的海量數據處理成為信息決策源在實施數據挖掘過程中需要注意的是一定要根據企業本身的業務來制定模型任何脫離企業業務的理論模型在具體實施過程中失敗的可能性很大
談完了數據倉庫和數據挖掘的本質那麼目前可以值得選擇的一些廠商和技術是什麼呢?
隨著商業智能數據倉庫的成熟進入這個領域的廠商越來越多評測也是各有千秋在EDW方面根據數據倉庫的容量計算復雜度實時性要求在低端可以考慮微軟的SQL Sserver 目前SQL Sserver 在商業智能上有顯著增強在中端可以考慮Oracle 的DW 解決方案Sybase IQ在數據量不是非常大的時候性能還是不錯的如果要做超大型的DW那麼需要考慮一些高端專業的DW解決方案目前TERADATA和IBM的Share Nothing架構的高端數據倉庫在海量數據處理復雜商業計算實時數據處理方面擴展性比較好但是投入非常大
數據倉庫和數據挖掘從幾年前比較抽象的層次逐漸清晰起來在企業決策和業務流程優化中發揮的作用越來越大一個好的數據倉庫和數據挖掘方案是一個開始更重要的是推動商業思想上從傳統的拍腦袋到精細化營銷和依靠數據做決策方面來商業和技術是兩個互相推進的因素商業是驅動但是好的技術也可以推動商業的發展適合的技術用在需要的商業驅動上才能發揮好作用
From:http://tw.wingwit.com/Article/program/SQL/201311/16368.html