在實際的工作環境下許多人會遇到海量數據這個復雜而艱巨的問題它的主要難點有以下幾個方面
一數據量過大數據中什麼情況都可能存在
如果說有條數據那麼大不了每條去逐一檢查人為處理如果有上百條數據也可以考慮如果數據上到千萬級別甚至過億那不是手工能解決的了必須通過工具或者程序進行處理尤其海量的數據中什麼情況都可能存在例如數據中某處格式出了問題尤其在程序處理時前面還能正常處理突然到了某個地方問題出現了程序終止了
二軟硬件要求高系統資源占用率高
對海量的數據進行處理除了好的方法最重要的就是合理使用工具合理分配系統資源一般情況如果處理的數據過TB級小型機是要考慮的普通的機子如果有好的方法可以考慮不過也必須加大CPU和內存就象面對著千軍萬馬光有勇氣沒有一兵一卒是很難取勝的
三要求很高的處理方法和技巧
這也是本文的寫作目的所在好的處理方法是一位工程師長期工作經驗的積累也是個人的經驗的總結沒有通用的處理方法但有通用的原理和規則
下面我們來詳細介紹一下處理海量數據的經驗和技巧
一選用優秀的數據庫工具
現在的數據庫工具廠家比較多對海量數據的處理對所使用的數據庫工具要求比較高一般使用Oracle或者DB微軟公司最近發布的SQL Server 性能也不錯另外在BI領域數據庫數據倉庫多維數據庫數據挖掘等相關工具也要進行選擇象好的ETL工具和好的OLAP工具都十分必要例如InformaticEassbase等筆者在實際數據分析項目中對每天萬條的日志數據進行處理使用SQL Server 需要花費小時而使用SQL Server 則只需要花費小時
[] [] [] [] []
From:http://tw.wingwit.com/Article/program/SQL/201311/16292.html