透視數據挖掘_電腦知識網

　　隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用數據庫中存儲的數據量急劇增大在大量的數據背後隱藏著許多重要的信息如果能把這些信息從數據庫中抽取出來將為公司創造很多潛在的利潤而這種從海量數據庫中挖掘信息的技術就稱之為數據挖掘
　　
　　數據挖掘工具能夠對將來的趨勢和行為進行預測從而很好地支持人們的決策比如經過對公司整個數據庫系統的分析數據挖掘工具可以回答諸如哪個客戶對我們公司的郵件推銷活動最有可能作出反應為什麼等類似的問題有些數據挖掘工具還能夠解決一些很消耗人工時間的傳統問題因為它們能夠快速地浏覽整個數據庫找出一些專家們不易察覺的極有用的信息
　　
　　下文將對數據挖掘的基本技術作一個簡單的介紹
　　
　　數據挖掘的基礎
　　
　　數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果起初各種商業數據是存儲在計算機的數據庫中的然後發展到可對數據庫進行查詢和訪問進而發展到對數據庫的即時遍歷數據挖掘使數據庫技術進入了一個更高級的階段它不僅能對過去的數據進行查詢和遍歷並且能夠找出過去數據之間的潛在聯系從而促進信息的傳遞現在數據挖掘技術在商業應用中已經可以馬上投入使用因為對這種技術進行支持的三種基礎技術已經發展成熟他們是
　　
　　海量數據搜集
　　強大的多處理器計算機
　　數據挖掘算法
　　
　　商業數據庫現在正在以一個空前的速度增長並且數據倉庫正在廣泛地應用於各種行業對計算機硬件性能越來越高的要求也可以用現在已經成熟的並行多處理機的技術來滿足另外數據挖掘算法經過了這多年的發展也已經成為一種成熟穩定且易於理解和操作的技術
　　
　　從商業數據到商業信息的進化過程中每一步前進都是建立在上一步的基礎上的見下表表中我們可以看到第四步進化是革命性的因為從用戶的角度來看這一階段的數據庫技術已經可以快速地回答商業上的很多問題了
　　　

　　表一數據挖掘的進化歷程
　　
　　數據挖掘的核心模塊技術歷經了數十年的發展其中包括數理統計人工智能機器學習今天這些成熟的技術加上高性能的關系數據庫引擎以及廣泛的數據集成讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段
　　
　　數據挖掘的范圍
　　
　　數據挖掘這個名字來源於它有點類似於在山脈中挖掘有價值的礦藏在商業應用裡它就表現為在大型數據庫裡面搜索有價值的商業信息這兩種過程都需要對巨量的材料進行詳細地過濾並且需要智能且精確地定位潛在價值的所在對於給定了大小的數據庫數據挖掘技術可以用它如下的超能力產生巨大的商業機會
　　
　　自動趨勢預測數據挖掘能自動在大型數據庫裡面找尋潛在的預測信息傳統上需要很多專家來進行分析的問題現在可以快速而直接地從數據中間找到答案一個典型的利用數據挖掘進行預測的例子就是目標營銷數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶
　　
　　自動探測以前未發現的模式數據挖掘工具掃描整個數據庫並辨認出那些隱藏著的模式比如通過分析零售數據來辨別出表面上看起來沒聯系的產品實際上有很多情況下是一起被售出的情況
　　
　　數據挖掘技術可以讓現有的軟件和硬件更加自動化並且可以在升級的或者新開發的平台上執行當數據挖掘工具運行於高性能的並行處理系統上的時候它能在數分鐘內分析一個超大型的數據庫這種更快的處理速度意味著用戶有更多的機會來分析數據讓分析的結果更加准確可靠並且易於理解
　　
　　數據庫可以由此拓展深度和廣度
　　
　　深度上允許有更多的列存在以往在進行較復雜的數據分析時專家們限於時間因素不得不對參加運算的變量數量加以限制但是那些被丟棄而沒有參加運算的變量有可能包含著另一些不為人知的有用信息現在高性能的數據挖掘工具讓用戶對數據庫能進行通盤的深度編歷並且任何可能參選的變量都被考慮進去再不需要選擇變量的子集來進行運算了
　　
　　廣度上允許有更多的行存在更大的樣本讓產生錯誤和變化的概率降低這樣用戶就能更加精確地推導出一些雖小但頗為重要的結論
　　
　　最近Gartner Group的一次高級技術調查將數據挖掘和人工智能列為未來三到五年內將對工業產生深遠影響的五大關鍵技術之首並且還將並行處理體系和數據挖掘列為未來五年內投資焦點的十大新興技術前兩位根據最近Gartner的HPC研究表明隨著數據捕獲傳輸和存儲技術的快速發展大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值采用更為廣闊的並行處理系統來創建新的商業增長點
　　
　　在數據挖掘中最常用的技術有
　　
　　人工神經網絡仿照生理神經網絡結構的非線形預測模型通過學習進行模式識別
　　
　　決策樹代表著決策集的樹形結構
　　
　　遺傳算法基於進化理論並采用遺傳結合遺傳變異以及自然選擇等設計方法的優化技術
　　
　　近鄰算法將數據集合中每一個記錄進行分類的方法
　　
　　規則推導從統計意義上對數據中的如果那麼規則進行尋找和推導
　　
　　采用上述技術的某些專門的分析工具已經發展了大約十年的歷史不過這些工具所面對的數據量通常較小而現在這些技術已經被直接集成到許多大型的工業標准的數據倉庫和聯機分析系統中去了
　　數據挖掘是如何工作的
　　
　　數據挖掘工具是怎樣准確地告訴你那些隱藏在數據庫深處的重要信息的呢？它們又是如何作出預測的？答案就是建模建模實際上就是在你知道結果的情況下建立起一種模型並且把這種模型應用到你所不知道的那種情況中比如說如果你想要在大海上去尋找一艘古老的西班牙沉船也許你首先想到的就是去找找過去發現這些寶藏的時間和地點有哪些那麼經過調查你發現這些沉船大部分都是在百慕大海區被發現並且那個海區有著某種特征的洋流以及那個時代的航線也有一定的特征可尋在這眾多的類似特征中你將它們抽象並概括為一個普適的模型利用這個模型你就很有希望在具有大量相同特征的另外一個地點發現一件不為人知的寶藏
　　
　　當然在數據挖掘技術甚至計算機出現以前這種建模抽象的方法就已經廣泛地被人們所使用在計算機中的建模和以前的建模方法並無很大不同主要的差異在於計算機能處理的信息量比起以前來更加龐大計算機中能夠存儲已知了結果的大量不同情況然後由數據挖掘工具從這些大量的信息裡面披沙揀金將能夠產生模型的信息提取出來一當模型建立好了之後就可以應用在那些情形相似但結果尚未知的判斷中了比如現在假設你是一個電信公司的營銷主任公司想發展一些新的長途電話用戶那麼你是不是會漫無目的地到街上去散發廣告呢？——就象漫無目的地在海上去尋寶一樣其實比起漫無目的地去進行宣傳來利用你以前的商業經驗來有目的地去拉攏客戶會產生高得多的效率
　　
　　作為一個營銷主任你對客戶的很多信息都可以了解得一清二楚年齡性別信用記錄以及長途電話使用狀況從好的一方面來看掌握了這些客戶的信息其實就是掌握了很多潛在的用戶的同樣的信息問題在於你還不一定了解他們的長途電話使用情況（因為他們的長途電話也許是通過的另一個電信公司）現在你的主要精力就集中在用戶中誰有比較多的長途電話上通過下面這個表格我們可以從數據庫裡面抽象某些變量建立起一個可以對此進行分類營銷的模型
　　　

　　表二數據挖掘應用於分類營銷
　　
　　根據我們創建的從一般信息到私有信息的計算模型我們可以得出表二右下方表格中的信息比如一個電信公司的簡化模型可以是年薪萬美圓以上的%的客戶每個月長話費美圓以上根據這個模型我們就能應用這些數據來推斷出公司現在尚不能明確的私有信息這樣新客戶群體就可以大體確定出來了小型市場的試銷數據對於這樣的模型來說顯得極為有用因為小范圍內試銷數據的挖掘能夠為全部市場的分類銷售打下一個良好的基礎表三則描述了另外一樣數據挖掘的普遍應用預測
　　

　　表三數據挖掘應用於預測
　　
　　數據挖掘的體系結構
　　
　　現有很多數據挖掘工具是獨立於數據倉庫以外的它們需要獨立地輸入輸出數據以及進行相對獨立的數據分析為了最大限度地發揮數據挖掘工具的潛力它們必須象很多商業分析軟件一樣緊密地和數據倉庫集成起來這樣在人們對參數和分析深度進行變化的時候高集成度就能大大地簡化數據挖掘過程下圖顯示了一個大型數據庫中的高級分析過程
　　集成後的數據挖掘體系
　　
　　應用數據挖掘技術較為理想的起點就是從一個數據倉庫開始這個數據倉庫裡面應保存著所有客戶的合同信息並且還應有相應的市場競爭對手的相關數據這樣的數據庫可以是各種市場上的數據庫SybaseOracleRedbrick和其他等等並且可以針對其中的數據進行速度上和靈活性上的優化
　　
　　聯機分析系統OLAP服務器可以使一個十分復雜的最終用戶商業模型應用於數據倉庫中數據庫的多維結構可以讓用戶從不同角度——比如產品分類地域分類或者其他關鍵角度——來分析和觀察他們的生意運營狀況數據挖掘服務器在這種情況下必須和聯機分析服務器以及數據倉庫緊密地集成起來這樣就可以直接跟蹤數據和並輔助用戶快速作出商業決策並且用戶還可以在更新數據的時候不斷發現
From:http://tw.wingwit.com/Article/os/xtgl/201311/9368.html