十五使用數據倉庫和多維數據庫存儲
數據量加大是一定要考慮OLAP的傳統的報表可能個小時出來結果而基於Cube的查詢可能只需要幾分鐘因此處理海量數據的利器是OLAP多維分析即建立數據倉庫建立多維數據集基於多維數據集進行報表展現和數據挖掘等
十六使用采樣數據進行數據挖掘
基於海量數據的數據挖掘正在逐步興起面對著超海量的數據一般的挖掘軟件或算法往往采用數據抽樣的方式進行處理這樣的誤差不會很高大大提高了處理效率和處理的成功率一般采樣時要注意數據的完整性和防止過大的偏差筆者曾經對億千萬行的表數據進行采樣抽取出萬行經測試軟件測試處理的誤差為千分之五客戶可以接受
還有一些方法需要在不同的情況和場合下運用例如使用代理鍵等操作這樣的好處是加快了聚合時間因為對數值型的聚合比對字符型的聚合快得多類似的情況需要針對不同的需求進行處理
海量數據是發展趨勢對數據分析和挖掘也越來越重要從海量數據中提取有用信息重要而緊迫這便要求處理要准確精度要高而且處理時間要短得到有價值信息要快所以對海量數據的研究很有前途也很值得進行廣泛深入的研究
[] [] [] [] []
From:http://tw.wingwit.com/Article/program/SQL/201311/16291.html