ETL是將業務系統的數據經過抽取清洗轉換之後加載到數據倉庫的過程目的是將企業中的分散零亂標准不統一的數據整合到一起為企業的決策提供分析的依據
ETL是BI項目最重要的一個環節通常情況下ETL會花掉整個項目的/的時間ETL設計的好壞直接關接到BI項目的成敗ETL也是一個長期的過程只有不斷的發現問題並解決問題才能使ETL運行效率更高為項目後期開發提供准確的數據
ETL的設計分三部分數據抽取數據的清洗轉換數據的加載在設計ETL的時候也是從這三部分出發數據的抽取是從各個不同的數據源抽取到ODS中(這個過程也可以做一些數據的清洗和轉換)在抽取的過程中需要挑選不同的抽取方法盡可能的提高ETL的運行效率ETL三個部分中花費時間最長的是T(清洗轉換)的部分一般情況下這部分工作量是整個ETL的/數據的加載一般在數據清洗完了之後直接寫入DW中去
ETL的實現有多種方法常用的有三種第一種是借助ETL工具如Oracle的OWBSQL server 的DTSSQL Server的SSIS服務informatic等實現第二種是SQL方式實現第三種是ETL工具和SQL相結合前兩種方法各有優缺點借助工具可以快速的建立起ETL工程屏蔽復雜的編碼任務提高速度降低難度但是欠缺靈活性SQL的方法優點是靈活提高ETL運行效率但是編碼復雜對技術要求比較高第三種是綜合了前面二種的優點極大的提高ETL的開發速度和效率
數據的抽取
數據的抽取需要在調研階段做大量工作首先要搞清楚以下幾個問題數據是從幾個業務系統中來?各個業務系統的數據庫服務器運行什麼DBMS?是否存在手工數據手工數據量有多大?是否存在非結構化的數據?等等類似問題當收集完這些信息之後才可以進行數據抽取的設計
[] [] [] []
From:http://tw.wingwit.com/Article/program/SQL/201311/16283.html