熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> SQL語言 >> 正文

數據抽取、清洗與轉換及BI項目中ETL設計[2]

2022-06-13   來源: SQL語言 

  與存放DW的數據庫系統相同的數據源處理方法

  這一類數源在設計比較容易一般情況下DBMS(包括SQLServerOracle)都會提供數據庫鏈接功能在DW數據庫服務器和原業務系統之間建立直接的鏈接關系就可以寫Select 語句直接訪問

  與DW數據庫系統不同的數據源的處理方法

  這一類數據源一般情況下也可以通過ODBC的方式建立數據庫鏈接如SQL Server和Oracle之間如果不能建立數據庫鏈接可以有兩種方式完成一種是通過工具將源數據導出成txt或者是xls文件然後再將這些源系統文件導入到ODS中另外一種方法通過程序接口來完成

  對於文件類型數據源(txtxls)可以培訓業務人員利用數據庫工具將這些數據導入到指定的數據庫然後從指定的數據庫抽取或者可以借助工具實現如SQL SERVER 的SSIS服務的平面數據源和平面目標等組件導入ODS中去

  增量更新問題

  對於數據量大的系統必須考慮增量抽取一般情況業務系統會記錄業務發生的時間可以用作增量的標志每次抽取之前首先判斷ODS中記錄最大的時間然後根據這個時間去業務系統取大於這個時間的所有記錄利用業務系統的時間戳一般情況下業務系統沒有或者部分有時間戳

  數據的清洗轉換

  一般情況下數據倉庫分為ODSDW兩部分通常的做法是從業務系統到ODS做清洗將髒數據和不完整數據過濾掉再從ODS到DW的過程中轉換進行一些業務規則的計算和聚合

[]  []  []  []  


From:http://tw.wingwit.com/Article/program/SQL/201311/16284.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.