熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> SQL語言 >> 正文

數據抽取、清洗與轉換及BI項目中ETL設計[3]

2022-06-13   來源: SQL語言 

  數據清洗

  數據清洗的任務是過濾那些不符合要求的數據將過濾的結果交給業務主管部門確認是否過濾掉還是由業務單位修正之後再進行抽取不符合要求的數據主要是有不完整的數據錯誤的數據和重復的數據三大類

  A不完整的數據其特征是是一些應該有的信息缺失如供應商的名稱分公司的名稱客戶的區域信息缺失業務系統中主表與明細表不能匹配等需要將這一類數據過濾出來按缺失的內容分別寫入不同Excel文件向客戶提交要求在規定的時間內補全補全後才寫入數據倉庫

  B錯誤的數據產生原因是業務系統不夠健全在接收輸入後沒有進行判斷直接寫入後台數據庫造成的比如數值數據輸成全角數字字符字符串數據後面有一個回車日期格式不正確日期越界等這一類數據也要分類對於類似於全角字符數據前後有不面見字符的問題只能寫SQL的方式找出來然後要求客戶在業務系統修正之後抽取;日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗這一類錯誤需要去業務系統數據庫用SQL的方式挑出來交給業務主管部門要求限期修正修正之後再抽取

  C重復的數據特別是維表中比較常見將重復的數據的記錄所有字段導出來讓客戶確認並整理

  數據清洗是一個反復的過程不可能在幾天內完成只有不斷的發現問題解決問題對於是否過濾是否修正一般要求客戶確認;對於過濾掉的數據寫入Excel文件或者將過濾數據寫入數據表在ETL開發的初期可以每天向業務單位發送過濾數據的郵件促使他們盡快的修正錯誤同時也可以作為將來驗證數據的依據數據清洗需要注意的是不要將有用的數據過濾掉了對於每個過濾規則認真進行驗證並要用戶確認才行

[]  []  []  []  


From:http://tw.wingwit.com/Article/program/SQL/201311/16285.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.