十使用文本格式進行處理
對一般的數據處理可以使用數據庫如果對復雜的數據處理必須借助程序那麼在程序操作數據庫和程序操作文本之間選擇是一定要選擇程序操作文本的原因為程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等例如一般的海量的網絡日志都是文本格式或者csv格式(文本格式)對它進行處理牽扯到數據清洗是要利用程序進行處理的而不建議導入數據庫再做清洗
十一定制強大的清洗規則和出錯處理機制
海量數據中存在著不一致性極有可能出現某處的瑕疵例如同樣的數據中的時間字段有的可能為非標准的時間出現的原因可能為應用程序的錯誤系統的錯誤等這是在進行數據處理時必須制定強大的數據清洗規則和出錯處理機制
十二建立視圖或者物化視圖
視圖中的數據來源於基表對海量數據的處理可以將數據按一定的規則分散到各個基表中查詢或處理過程中可以基於視圖進行這樣分散了磁盤I/O正如根繩子吊著一根柱子和一根吊著一根柱子的區別
十三避免使用位機子(極端情況)
目前的計算機很多都是位的那麼編寫的程序對內存的需要便受限制而很多的海量數據處理是必須大量消耗內存的這便要求更好性能的機子其中對位數的限制也十分重要
十四考慮操作系統問題
海量數據處理過程中除了對數據庫處理程序等要求比較高以外對操作系統的要求也放到了重要的位置一般是必須使用服務器的而且對系統的安全性和穩定性等要求也比較高尤其對操作系統自身的緩存機制臨時空間的處理等問題都需要綜合考慮
[] [] [] [] []
From:http://tw.wingwit.com/Article/program/SQL/201311/16295.html