大數據正在徹底改變IT世界
那麼
什麼樣的數據談得上數據呢?
根據IDC的報告未來十年全球大數據將增加倍僅在年我們就將看到ZB(也就是萬億GB)的大數據創建產生這相當於每位美國人每分鐘寫條Tweet而且還是不停地寫萬年在未來十年管理數據倉庫的服務器的數量將增加倍以便迎合倍的大數據增長
毫無疑問大數據將挑戰企業的存儲架構及數據中心基礎設施等也會引發雲計算數據倉庫數據挖掘商業智能等應用的連鎖反應年企業會將更多的多TB(TB=GB)數據集用於商務智能和商務分析;到年全球數據使用量預計暴增倍達到ZB(ZB=億TB)
大數據面臨的挑戰——RISC已無法滿足未來的企業架構需求
對於海量的數據信息如何對這些數據進行復雜的應用成了現今數據倉庫商業智能和數據分析技術的研究熱點數據挖掘就是從大量的數據中發現隱含的規律性的內容解決數據的應用質量問題充分利用有用的數據廢棄虛偽無用的數據是數據挖掘技術的最重要的應用傳統的數據庫中的數據結構性很強即其中的數據為完全結構化的數據而目前數據最大特點就是半結構化因此此類數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多
談到傳統數據倉庫的時候大家不免就會買存儲設備選服務器不管是IBM Power或者是Oracle架構的這些其實都是在傳統時代非常有名的數據庫品牌把它構建在一起構成數據倉庫微軟COCNOS等都提供解決方案
但從目前來看現有的數據倉庫已經遠遠不能滿足未來的企業大數據架構
對企業業務來說不光要有高擴展性而且是動態的需求能夠讓設備自由擴充不用去管數據倉庫應用具體運行在這些機器的哪一台上這些計算能力的耗費完全是根據業務的伸縮而來的
傳統的架構做這類的項目十年到二十年的時間它們有一個特點數據倉庫的訪問和傳統的不同所謂的不同就是查詢特別大查詢的語句特別長特別復雜不像去銀行的存提款只是在眾多的記錄中查詢一兩條它符合大數據查詢的特征傳統的查詢索引作用非常有限在數據庫中涉及多張表的連接同時還有匯總算標准差等復雜的運算但是相反它的並發請求不是很多一個企業就是人再多不會同時超過一千個業務分析員在分析數據
因此在數據倉庫誕生的第一天系統一直就有一個瓶頸要把大查詢分解成小任務這些小任務由並行的服務器來完成我們強調小的機器要多而不要大的機器CPU數少因此數據倉庫天生就是MPP開放架構的CPU加上並行擴展橫向擴展數量從這方面來看擴展性較差並行處理能力有限的RISC架構已經不能代表未來的企業架構
而以英特爾為代表的X處理器天生就是為大數據應用而生Oracle推出的Exadata數據倉庫服務器采用了英特爾至強(Nehalem)處理器DDR內存和Gbps InfiniBandExadata數據庫機第二版的CPU內存和網絡速度分別提高了%%%單個數據庫服務器內存容量則達到了GB原始磁盤容量和每機架磁盤容量達到TBTBSun FlashFire內存卡則實現了高性能的OLTP
當大數據遭遇雲計算
雲計算為什麼能盛行呢?在互聯網領域應用系統的構建客戶群體是不確定的系統規模不確定系統投資不固定業務應用有很清晰的並行分割特征數據倉庫系統的構建數據倉庫規模可估算數據倉庫的系統投資與業務分析的價值和回報相關商業智能應用屬於整體應用Saas模式構建數據倉庫系統
在大數據技術上用雲計算構建下一代數據倉庫成為熱門話題這當中包括大數據管理分布式進行文件系統如HadoopMapreduce數據分割與訪問執行;同時SQL支持以Hive HADOOP為代表的SQL界面支持從系統需求來看大數據的架構對系統提出了新的挑戰
集成度更高這意味著一個標准機箱最大限度完成特定任務華碩不久推出的一款高密度機架式服務器RSU高度最大能采用支持個雙路計算節點實現單機個英特爾系列處理器和高達總計G內存資源
配置更合理速度更快存儲控制器I/O通道內存CPU網絡均衡設計針對數據倉庫訪問最優設計比傳統類似平台高出一個數量級以上這方面的經典案例是數據倉庫頭號廠商Teradata其采用雙路Xeon六核處理器的企業級數據倉庫可輕松為數千名用戶處理更復雜更大量的工作負載持續負載以及批負載操作性查詢簡單報表和復雜的分析所有功能均在同一個平台上運行與上一代產品相比動態企業級數據倉庫的性能提高了%占地面積保持不變減少了能源消耗和空間需求
整體能耗更低同等計算任務能耗最低
系統更加穩定可靠能夠消除各種單點故障環節統一一個部件器件的品質和標准
管理維護費用低數據藏的常規管理全部集成
可規劃和預見的系統擴容升級路線圖
雲計算環境作為大數據處理平台
雲計算環境中基本計算單元的分化
企業雲計算平台上雖然有多個並行計算的CPU但並沒有創造出具有超強數據處理能力的超級CPU因此雲計算平台需要的是有並行運算能力的軟件系統同時當所有用戶的數據全部放在雲端時雖然存儲容量可以很方便地擴充但面對大量用戶同時發起的海量數據處理請求簡單的數據處理邏輯已經無法滿足需要
可以看到國內有相當多的電商企業用小型機和Oracle扛了好幾年並請了全國最牛的Oracle的專家不停優化他的Oracle和小型機初期發展可能很快但是後來由於數據量激增業務開始受到嚴重影響最典型的例子無疑是京東商城前段時間發生的大規模訪問請求宕機事件因此他們開始逐漸放棄了Oracle或者MSSQL並逐漸轉向MySQL X的分布式架構
目前的基本計算單元常常是普通的X服務器它們組成了一個大的雲而未來的雲計算單元裡有可能有存儲單元計算單元協調單元總體的效率會更高
對系統穩定性的需求
在應對大規模訪問的時候有一些系統穩定性的追求來自很多方面來自網絡穩定性數據庫穩定性對系統而言需要把握一個大原則需要消除任何單點故障不光是網絡上單點故障還有來自你呼叫中心裡的單點故障只要有單點故障一定要消除掉因為對於電商行業而言每一秒都是錢電子商務業務如果宕機一個小時損失多少是可以算出來的電商行業需要非常全面的技術系統監控報警系統有時候你會發現你如果通過技術系統的監控去推導出你的技術發生問題已經晚了
From:http://tw.wingwit.com/Article/program/MySQL/201405/30863.html