第一章元數據概論
企業的計算機系統每年會產生很多數據
很多企業面臨著這樣的困境
難以有效的管理大量的
繁雜的
不一致的數據
並方便地訪問
利用這些數據進行輔助決策
建立數據倉庫提供一個方法
把數據轉化為有用的
可信賴的信息
支持商業決策
建立數據倉庫一個重要的工作是元數據管理
元數據(Metadata)就是數據的數據
用於建立
管理
維護和使用數據倉庫
元數據管理是企業級數據倉庫中的關鍵組件
貫穿於建立數據倉庫的整個過程
元數據使得用戶可以掌握數據的歷史情況
如數據從哪裡來?流通時間有多長?更新頻率是多大?數據元素的含義是什麼?對它已經進行了哪些計算
轉換和篩選等等
在需求不確定情況下
在瞬間萬變的商業環境下
元數據可以更好的支持需求的變化
降低項目風險
通常把元數據分為技術元數據(Technical Metadata)和業務元數據(Business Metadata)
技術元數據是描述關於數據倉庫技術細節的數據
這些元數據應用於開發
管理和維護數據倉庫
業務元數據從商業和業務的角度描述數據倉庫的數據
提供了良好的語義層定義
業務元數據使業務人員能夠更好的理解數據倉庫分析出來的數據
元數據貫徹於建立數據倉庫的整個過程
不只是ETL過程需要元數據的支持
圖
元數據的應用
在使用元數據的同時
隨著數據倉庫市場的發展
業界出現許多數據倉庫管理和分析的工具
各種工具使用不同的元數據標准來表示和處理
不同系統之間的遷移
數據交換變得困難
於是
我們希望用一種單一的元數據標准
使得各種組織的元數據具有單一的元模型(MetaModel)
因此
需要建立一種標准使得不同的數據倉庫和商業智能系統之間可以相互交換元數據
第二章元數據標准
一
元數據標准CWM
OMG於
年頒布元數據標准CWM
(Common Warehouse Metamodel Version
)
CWM定義一個描述數據源
數據目的
轉換
分析的元數據框架
以及定義建立和管理數據倉庫的過程和操作
提供使用信息的繼承
目前宣布支持CWM的廠商包括
IBM
Oracle
Hyperion
Dimension EDI
Genesis IONA
HP
NCR和Unisys等
CWM基於
個工業標准
UML
Unified Modeling Language
OMG建模標准
MOF
Meta Object Facility
OMG建立元模型和模型庫的標准
提供在異構環境下的數據交換的接口
XMI
XML Metadata Interchange
OMG元數據交換標准
UML在CWM中得到充分的應用
擔任
個不同的角色
)
UML用來做為與MOF對應的meta
metamodel
UML相當於MOF Model
UML Notation和OCL(Object Constraint Language)
被用來做為建模語言
圖形符號
約束語言
定義和描述CWM
)
UML用來創建元模型
UML
特別是Object Model 包描述的子集
用來從其它元模型繼承等級和關聯以建立CWM
)
UML做為面向對象元模型(object
oriented metamodel)
UML被用來描述面向對象的數據
CWM元模型包括大量的子元模型(sub
Metamodel)
這些子元模型描述了建立數據倉庫和商業智能的各個主要部分的通用數據倉庫元數據
主要包括
)
數據資源
包括各個元模型
描述了面向對象數據
關系數據庫
記錄
多維和XML等數據
)
數據分析
包括描述數據轉換
OLAP
數據挖掘
信息展現
商業術語等的元模型
)
數據倉庫管理
這包括數據倉庫過程以及數據倉庫操作結果的元模型
CWM元模型設計的目的是最大化的重用對象模型Object Model (UML的子集)
盡可能的共享通用的模型構建
最典型的是
CWM重用/依賴對象模型來描述面向對象的數據資源
另外
其它類型的數據資源的主要Metamodel元素
在對象模型中都有相同的模型元素與之相對應
二
使用CWM
CWM的目標使用者
CWM標准包括了技術元數據和業務元數據的定義
涉及數據倉庫生命周期的所有階段
所以不只是實施工程師和實施顧問使用CWM
最終用戶也會受益於CWM
CWM的目標使用者包括
類人員
數據倉庫平台和工具供應商
專業服務咨詢商
數據倉庫開發者
數據倉庫管理員
最終用戶
信息技術主管(CIO)
基於CWM的數據倉庫
CWM的目標使用者將會參與到開發和使用基於CWM的數據倉庫的過程中
但並不是所有的角色需要參與整個過程
而是參與到下面列舉的的
個階段中的一個或多個
)
Establishment
實現和配置CWM
包括建立一個通用資料庫
)
Build
使用CWM定義一個基線數據倉庫配置(建立數據源和目的的交換路徑)
)
Operation
操作和使用基於CWM的數據倉庫
)
Maintenance
維護使用了CWM定義的數據倉庫的配置
三
CWM標准組織結構
CWM元模型使用包(package)和包等級結構來控制復雜性
提高理解性
支持重用
模型元素包括下面的包
對象模型包
對象模型包是構建和描述其它CWM包的元模型類的基礎
; 核心包
包括CWM核心對象模型的類和關聯
被其它CWM包使用
; 行為包
包括用來描述CWM對象的行為的類和關聯
; 關系包
包括用來描述各個CWM對象之間關系的類和關聯
; 實例包
包括用來描述CWM實例的類和關聯
基礎包
基礎包是表示CWM概念和架構的模型元素
; 商業信息包
包括用來描述關於模型元素的商業信息的類和關聯
; 數據類型包
包括用來描述創建模型需要的特定數據類型構建的類和關聯
; 表達式包
包括用來描述表達樹(expression trees)的類和關聯
; 關鍵字和索引包
包括用來描述主鍵和索引的類和關聯
; 軟件部署包
包括用來描述軟件在數據倉庫中如何部署和配置的類和關聯
; 類型映射包
包括用來描述兩個系統之間數據類型映射關系的類和關聯
資源包
資源包是用來描述數據資源和記錄的信息
; 關系包
包括用來描述關系型數據的元數據的類和關聯
; 記錄包
包括用來描述記錄型數據的元數據的類和關聯
; 多維包
包括用來描述多維型數據的元數據的類和關聯
; XML包
包括用來描述XML數據的元數據的類和關聯
分析包
分析包定義了如何對信息進行加工和處理
以及信息展示
; 轉換包
包括用來描述數據轉換工具的元數據的類和關聯
; OLAP包
包括用來描述OLAP工具的元數據的類和關聯
; Data Mining包
包括用來描述數據挖掘工具的元數據的類和關聯
; 信息展示包
包括用來描述信息展示工具的元數據的類和關聯
; 商業術語包
包括用來描述商業分類學和術語表的元數據的類和關聯
管理包
管理包用於數據倉庫管理和維護
; 倉庫過程包
包括用來描述數據倉庫過程的元數據的類和關聯
; 倉庫操作
包括用來描述數據倉庫操作和查詢結果的元數據的類和關聯
第三章建立元數據庫
元數據庫是用於存儲元數據的地方
元數據庫最好選用主流的關系數據庫管理系統
支持CWM標准
一個元數據庫還包含那些用於操作和查詢元數據的機制
建立元數據庫的主要好處是提供了統一的關鍵數據結構和業務規則
易於將企業內部的多個數據集市有機的結合起來
特別是
現在一些客戶傾向建立多個數據集市
而不是一個龐大無比的數據倉庫
可以考慮在建立數據倉庫(或數據集市)之前
先建立一個用於描述數據的
用於應用集成的元數據庫
做好數據倉庫實施的初期支持工作
對後續開發和維護有很大的幫助
在擁有不同廠商
不同功能和不同元數據庫的環境下
要實現兩種產品之間的元數據同步是非常富有挑戰性的工作
因為必須從一種產品中獲得足夠詳細的元數據
將其映射到另一種產品中
再指出兩者意義或編碼的差別
通常系統有數百
數千個元數據
必須對每個元數據重復這一過程
在整個數據倉庫環境中
元數據管理工具可以從各個數據倉庫組件中收集元數據
存儲到元數據庫中
然後向業務用戶傳遞和展示正確的信息
采集
集成和描述元數據可以擴展到十分廣泛的范圍
可以在設計和建模的過程中
可以在數據轉換
清洗和過濾的過程中
也可以在數據移植的過程中
可以從數據庫/數據存儲軟件
和前端展示工具中得到元數據
元數據庫為整個企業的寶貴信息提供了詳細的記錄
保存數據存儲位置和商業含義
生成和維護數據的主體
數據驅動的應用處理
與其它數據的關系以及數據的轉換過程等
元數據庫保證了數據倉庫數據的一致性和准確性
為企業進行數據質量管理提供數據依據
另外
元數據庫還支持強大的查詢和報表生成工具
用戶使用報表工具可以查詢元數據庫
從元數據庫獲得重要的決策支持信息
From:http://tw.wingwit.com/Article/os/xtgl/201311/8665.html