熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> Oracle >> 正文

數據倉庫和元數據管理

2022-06-13   來源: Oracle 

  
   前言
  在事務處理系統中的數據主要用於記錄和查詢業務情況隨著數據倉庫(DW)技術的不斷成熟企業的數據逐漸變成了決策的主要依據數據倉庫是一種面向決策主題由多數據源集成擁有當前及歷史總結數據以讀為主的數據庫系統其目的是支持決策數據倉庫要根據決策的需要收集來自企業內外的有關數據並加以適當的組織處理使其能有效地為決策過程提供信息數據倉庫中的數據是從許多業務處理系統中抽取轉換而來對於這樣一個復雜的企業數據環境如何以安全高效的方式來對它們進行管理和訪問就變得尤為重要解決這一問題的關鍵是對元數據進行科學有效的管理元數據是關於數據操縱數據的進程和應用程序的結構和意義的描述信息其主要目標是提供數據資源的全面指南元數據不僅定義了數據倉庫中數據的模式來源以及抽取和轉換規則等而且整個數據倉庫系統的運行都是基於元數據的是元數據把數據倉庫系統中的各個松散的組件聯系起來組成了一個有機的整體
  本文首先介紹了元數據的定義作用和意義然後討論了數據倉庫系統中元數據管理的現狀和關於元數據的標准化情況最後提出了建立元數據管理系統的步驟和實施方法
  
   元數據
   元數據的概念
  按照傳統的定義元數據(Metadata)是關於數據的數據在數據倉庫系統中元數據可以幫助數據倉庫管理員和數據倉庫的開發人員非常方便地找到他們所關心的數據元數據是描述數據倉庫內數據的結構和建立方法的數據可將其按用途的不同分為兩類技術元數據(Technical Metadata)和業務元數據(Business Metadata)
  技術元數據是存儲關於數據倉庫系統技術細節的數據是用於開發和管理數據倉庫使用的數據它主要包括以下信息
  &#; 數據倉庫結構的描述包括倉庫模式視圖層次結構和導出數據的定義以及數據集市的位置和內容
  &#; 業務系統數據倉庫和數據集市的體系結構和模式
  &#; 匯總用的算法包括度量和維定義算法數據粒度主題領域聚集匯總預定義的查詢與報告
  &#; 由操作環境到數據倉庫環境的映射包括源數據和它們的內容數據分割數據提取清理轉換規則和數據刷新規則安全(用戶授權和存取控制)
  業務元數據從業務角度描述了數據倉庫中的數據它提供了介於使用者和實際系統之間的語義層使得不懂計算機技術的業務人員也能夠讀懂數據倉庫中的數據業務元數據主要包括以下信息使用者的業務術語所表達的數據模型對象名和屬性名訪問數據的原則和數據的來源系統所提供的分析方法以及公式和報表的信息具體包括以下信息
  &#; 企業概念模型這是業務元數據所應提供的重要的信息它表示企業數據模型的高層信息整個企業的業務概念和相互關系以這個企業模型為基礎不懂數據庫技術和SQL語句的業務人員對數據倉庫中的數據也能做到心中有數
  &#; 多維數據模型這是企業概念模型的重要組成部分它告訴業務分析人員在數據集市當中有哪些維維的類別數據立方體以及數據集市中的聚合規則這裡的數據立方體表示某主題領域業務事實表和維表的多維組織形式
  &#; 業務概念模型和物理數據之間的依賴以上提到的業務元數據只是表示出了數據的業務視圖這些業務視圖與實際的數據倉庫或數據庫多維數據庫中的表字段層次等之間的對應關系也應該在元數據知識庫中有所體現
  
   元數據的作用
  在數據倉庫系統中元數據機制主要支持以下五類系統管理功能(1)描述哪些數據在數據倉庫中(2)定義要進入數據倉庫中的數據和從數據倉庫中產生的數據(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排(4)記錄並檢測系統數據一致性的要求和執行情況(5)衡量數據質量
  與其說數據倉庫是軟件開發項目還不如說是系統集成項目[]因為它的主要工作是把所需的數據倉庫工具集成在一起完成數據的抽取轉換和加載OLAP分析和數據挖掘等如圖所示它的典型結構由操作環境層數據倉庫層和業務層等組成
  
  其中第一層(操作環境層)是指整個企業內有關業務的OLTP系統和一些外部數據源第二層是通過把第一層的相關數據抽取到一個中心區而組成的數據倉庫層第三層是為了完成對業務數據的分析而由各種工具組成的業務層圖中左邊的部分是元數據管理它起到了承上啟下的作用具體體現在以下幾個方面
  &#; 便於集成
  &#; 提高系統的靈活性
  &#; 保證數據的質量
  &#; 幫助用戶理解數據的意義
  
   數據倉庫元數據管理現狀
  元數據管理的主要任務有兩個方面一是負責存儲和維護元數據庫中的元數據二是負責數據倉庫建模工具數據獲取工具前端工具等之間的消息傳遞協調各模塊和工具之間的工作
  由以上幾節我們了解到元數據幾乎可以被稱為是數據倉庫乃至商業智能(BI)系統的靈魂正是由於元數據在整個數據倉庫生命周期中有著重要的地位各個廠商的數據倉庫解決方案都提到了關於對元數據的管理但遺憾的是對於元數據的管理各個解決方案都沒有明確提出一個完整的管理模式它們提供的僅僅是對特定的局部元數據的管理當前市場上與元數據有關的主要工具見圖
  
  如圖所示與元數據相關的數據倉庫工具大致可分為四類
   數據抽取工具把業務系統中的數據抽取轉換集成到數據倉庫中如Ardent的DataStageCA(原Platinum)的Decision Base和ETI的Extract等這些工具僅提供了技術元數據幾乎沒有提供對業務元數據的支持
   前端展現工具包括OLAP分析報表和商業智能工具等如MicroStrategy的DSS AgentCognos的PowerPlayBusiness Objects的BO以及Brio等它們通過把關系表映射成與業務相關的事實表和維表來支持多維業務視圖進而對數據倉庫中的數據進行多維分析這些工具都提供了業務元數據與技術元數據相對應的語義層
   建模工具為非技術人員准備的業務建模工具這些工具可以提供更高層的與特定業務相關的語義如CA的ERwinSysbase的PowerDesigner以及Rational的Rose等
   元數據存儲工具元數據通常存儲在專用的數據庫中該數據庫就如同一個黑盒子外部無法知道這些工具所用到和產生的元數據是如何存儲的還有一類被稱為元數據知識庫(Metadata Repository)的工具它們獨立於其它工具為元數據提供一個集中的存儲空間包括微軟的RepositoryCA的RepositoryArdent的MetaStage和Sybase的WCC等
  
   元數據管理的標准化
  沒有規矩不成方圓元數據管理之所以困難一個很重要的原因就是缺乏統一的標准在這種情況下各公司的元數據管理解決方案各不相同近幾年隨著元數據聯盟MDC(Meta Data Coalition)的開放信息模型OIM(Open Information Model)和OMG組織的公共倉庫模型CWM(Common Warehouse Model)標准的逐漸完善以及MDC和OMG組織的合並為數據倉庫廠商提供了統一的標准從而為元數據管理鋪平了道路
  從元數據的發展歷史不難看出元數據管理主要有兩種方法
  () 對於相對簡單的環境按照通用的元數據管理標准建立一個集中式的元數據知識庫
  () 對於比較復雜的環境分別建立各部分的元數據管理系統形成分布式元數據知識庫然後通過建立標准的元數據交換格式實現元數據的集成管理
  下面我們分別介紹數據倉庫領域中兩個最主要的元數據標准MDC的OIM標准和OMG的CWM標准
  
   MDC的OIM存儲模型
  MDC成立於是一個致力於建立與廠商無關的不依賴於具體技術的企業元數據管理標准的非贏利技術聯盟該聯盟有多個會員其中包括微軟和IBM等著名軟件廠商月MDC接受了微軟的建議將OIM作為元數據標准
  OIM的目的是通過公共的元數據信息來支持不同工具和系統之間數據的共享和重用它涉及了信息系統(從設計到發布)的各個階段通過對元數據類型的標准描述來達到工具和知識庫之間的數據共享OIM所聲明的元數據類型都采用統一建模語言UML(Universal Modeling Language)進行描述並被組織成易於使用易於擴展的多個主題范圍(Subject Areas)這些主題范圍包括
  &#; 分析與設計(Analysis and Design)主要用於軟件分析設計和建模該主題范圍又進一步劃分為UML包(Package)UML擴展包通用元素(Generic Elements)包公共數據類型(Common Data Types)包和實體關系建模(Entity Relationship Modeling)包等
  &#; 對象與組件(Object and Component)涉及面向對象開發技術的方方面面該主題范圍只包含組件描述建模(Component Description Modeling)包
  &#; 數據庫與數據倉庫(Database and Warehousing)為數據庫模式管理復用和建立數據倉庫提供元數據概念支持該主題范圍進一步劃分為關系數據庫模式(Relational Database Schema)包OLAP模式(OLAP Schema)包數據轉換(Data Transformations)包面向記錄的數據庫模式(RecordOriented Database Schema)包XML模式(XML Schema)包和報表定義(Report Definitions)包等
  &#; 業務工程(Business Engineering)為企業運作提供一個藍圖該主題范圍進一步劃分為業務目標(Business Goal)包組織元素(Organizational Elements)包業務規則(Business Rules)包商業流程(Business Processes)包等
  &#; 知識管理(Knowledge Management)涉及企業的信息結構該主題范圍進一步劃分為知識描述(Knowledge
From:http://tw.wingwit.com/Article/program/Oracle/201311/18587.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.