數據挖掘技術與應用

　　第一章　數據挖掘介紹
　　什麼是數據挖掘
　　數據挖掘（Data Mining）是一個利用各種分析工具在海量數據中發現模型和數據之間關系的過程這些模型和關系可以被企業用來分析風險進行預測
　　數據挖掘是通過仔細分析大量數據來揭示有意義的新的關系模式和趨勢的過程它使用模式認知技術統計技術和數學技術（Gartner Group）
　　數據挖掘是一個從大型數據庫中提取以前不知道的可操作性信息的知識挖掘過程（Aaron Zornes The META Group）
　　數據挖掘能夠幫助企業降低成本減少風險提高資金回報率現在很多公司開始采用數據挖掘技術來判斷哪些是最有價值客戶重整產品推廣策略以用最小的花費得到最好的銷售電信行業和銀行業較先使用數據挖掘電信公司使用數據挖掘檢測話費欺詐行為銀行使用數據挖掘檢測信用卡欺詐行為
　　數據挖掘模型建立完成後進行驗證和評價非常必要比如用市場調查得到的客戶數據做了一個模型來預測哪些客戶群會對新產品感興趣通常情況下還不能用這個模型直接指導行動更穩妥的做法是先對一小部分客戶做一個實際的測試得到市場的實際反應情況然後再大規模的采取市場推廣行動
　　數據挖掘幫助分析師和決策人員更深入更容易的分析數據為了保證數據挖掘結果的價值用戶必須非常了解自己的數據並且了解數據挖掘工具是如何工作的了解不同的技術和算法對模型的准確度和模型生成速度的影響
　　大部分情況下數據挖掘的分析數據源可以是數據倉庫或數據挖掘數據集市數據挖掘工具訪問數據倉庫進行數據挖掘有許多好處因為導入到數據倉庫的數據已經經過了大量的數據清理和轉換工作減少數據挖掘的數據清理過程
　　　

　　圖數據挖掘支持多數據源
　　
　　在實施數據挖掘之前需要制定實施步驟有了好的計劃才能保證數據挖掘順利實施並取得成功數據挖掘軟件供應商提供了一些數據挖掘的過程模型用來指導用戶實施數據挖掘比如SPSS的A――評估（Assess）訪問（Access）分析（Analyze）行動（Act）和自動化（Automate）以及SAS的SEMMA――采樣（Sample）探索（Explore）修正（Modify）建模（Model）和評估（Assess）
　　數據挖掘與OLAP
　　數據挖掘和OLAP是兩種完全不同的工具他們的用途不同基於的技術也大相徑庭
　　OLAP是驗證式的工具告訴用戶下一步會怎麼樣（What next）如果采取這樣的措施又會怎麼樣（What if）OLAP分析過程是一個演繹推理的過程用戶首先建立一個假設然後用OLAP工具浏覽數據來驗證假設如果一個分析涉及到的變量達到幾十或上百個那麼用OLAP手動分析驗證這些假設將是一件非常困難的事情
　　數據挖掘與OLAP不同的地方是數據挖掘不是用於驗證某個假定的模型的正確性而是在數據庫中自己尋找模型數據挖掘過程是一個歸納的過程如果一個分析師打算用數據挖掘工具分析移動電話用戶的欠費風險數據挖掘工具可能會幫助分析師發現一些從來沒有想過的影響因素
　　數據挖掘比OLAP更自動化更深入分析結果更難被理解數據挖掘和OLAP具有一定的互補性在利用數據挖掘工具挖掘出來的結論采取行動之前你也許要用OLAP驗證一下如果采取這樣的行動會給企業帶來什麼樣的影響
　　將OLAP和DataMining技術結合起來形成了一個新的體系OLAM（OnLine Analytical Mining）在OLAP中挖掘多層多維的關聯規則是一個很有效果的過程可以挖掘到一些新的規則
　　數據挖掘與CRM
　　數據挖掘能自動從龐大的數據中找到預測客戶購買行為的模式進行數據挖掘後把結果輸入到促銷活動管理軟件中可以大大提高促銷的效果
　　數據挖掘輔助基於數據庫的銷售數據挖掘能幫助銷售人員更准確地定位推銷活動並使活動緊密結合現有客戶和潛在客戶的需求願望和狀態數據挖掘和CRM結合通過數據挖掘優化CRM流程可以用來留住客戶提高活動的響應率
　　數據挖掘利用數據庫的信息創建模型和預測客戶行為在使用數據挖掘給客戶評分後這些分數就可以用來為推銷活動選擇最適合的客戶群數據挖掘得出的可能流失客戶名單通過呼叫中心對客戶進行關懷訪問爭取留住客戶從而達到企業的長期利潤最大化的目的
　　數據挖掘可以增加客戶在整個生命周期裡的價值通過追蹤響應率和遵照客戶行為變化的規則可以評測市場推廣活動的利潤率和投資回報率
　　我們希望CRM系統提供封閉循環的推銷不僅預測推銷效果執行推銷活動而且封閉循環能夠衡量活動的結果系統衡量推銷活動的效果在下一個循環中就可以采取措施提高有效性
　　數據挖掘AI與統計
　　統計學和數據挖掘有同樣的目標發現數據中的結構所以有人認為數據挖掘是統計學的分支這是一個不切合實際的結論有兩個原因說明這個問題
　　一是數據挖掘更多的是應用其它領域的思想工具和方法尤其是數據庫技術和機器學習等計算機學科分支二是由於統計學的數學背景和追求精確的方法在采用一個方法之前先要進行充分的證明而不是類似計算機科學和機器學習那樣注重於經驗
　　神經元網絡遺傳算法和機器學習等知識發現技術在足夠多的數據和計算能力下可以自動完成許多有價值的計算關於數據挖掘和知識發現的關系有很多人認為數據挖掘是知識發現過程的一個步驟一些人則把數據挖掘和知識發現等同起來
　　數據挖掘利用統計和人工智能的技術把這些高深復雜的技術封裝起來使用戶不用掌握這些技術也能完成同樣的功能從而更加專注於自己所要解決的問題
　　第二章數據挖掘模型和算法
　　數據挖掘軟件使用的算法基本上都是成熟的公開的算法有一些公司采用自己研發的未公開的算法
　　大部分算法都不是專為解決某個問題而設計的算法之間沒有互斥性不能認為一個問題非要采用某種算法也不存在所謂最好的算法一般通過試驗來選取合適的算法
　　一關聯分析
　　關聯分析挖掘數據中項集之間有意義的關聯或相關聯系關聯分析是尋找數據庫中數值的相關性常用的技術是關聯規則和序列模式從大量商業數據中發現有意義的關聯關系可以幫助商業決策的制定如交叉銷售和優惠促銷行動等典型的應用如超市使用關聯分析設計商品的擺放位置方便顧客購物
　　表達某一特定關聯出現的頻率在關聯規則中稱為支持度當情況一出現時發生情況二的概率在關聯規則中稱為可信度比如在萬個移動通信用戶中有萬用戶使用手機銀行業務萬用戶同時使用手機銀行和移動秘書業務則同時使用兩種業務的支持度為/＝％使用手機銀行業務的用戶會選擇移動秘書業務的可信度為/＝％
　　關聯分析得到的模式需要其它數據驗證其正確性並進行必要的試驗來保證利用歷史數據得到的規律有效的應用於未來的環境比如設計超市商品擺放在貨架的位置把相關性強的商品擺放在一起可能會導致這樣的情況發生顧客非常容易的找到需要的商品就不會去考慮哪些不在購買計劃內的商品所以在實施之前一定要經過充分的分析和試驗
　　Apriori算法是挖掘布爾關聯規則最有影響的算法但Apriori算法遞推的過程要求多次的數據庫掃描將引起很大的I/O負載Agrawal等引入了修剪技術改進算法的性能采用基於采樣的方法也可以顯著地減少了I/O負載在數據庫中選取隨機樣本S在樣本S中搜索頻集再用另一個樣本數據驗證結果
　　分類和預測
　　分類就是對一個事件或一組對象進行歸類可以用分類模型分析已有的數據還可以用分類模型來預測未來分類和預測是兩類主要的預測問題預測離散數據通常稱為分類預測連續數據通常稱為預測
　　分類算法通過分析已知的分類信息得到一個預測模型用於建立模型的分類數據稱為訓練集訓練集也可以是通過實驗得到的數據比如從數據庫中提取出一個客戶名單列表向這些客戶發送新產品的介紹資料然後收集對此做出回應的客戶資料用這些記錄建立一個預測模型預測哪類用戶會對新產品感興趣最後把這個模型應用於新產品的推廣
　　決策樹是一種典型的分類算法可以得到類似在什麼條件下會得到什麼結果的規則比如建立顧客決策樹模型進行市場細分找出最有可能對促銷宣傳感興趣的客戶群
　　沿著決策樹從上到下遍歷的過程中在每個節點都會遇到一個問題對每個節點上問題的不同條件得到不同的分支子樹最後到達葉子節點生成決策樹的過程是不斷把數據進行切分的過程常用的決策數算法有IDC和CART等
　　決策樹的優點是生成容易理解的規則如果建立一個包含幾百個屬性的決策樹雖然看起來很復雜但每一條從根結點到葉子節點的路徑所描述的含義還是可以理解的再者決策樹算法的計算量相對來說不是很大並且擅長處理非數值型數據
　　使用決策樹算法也要注意其局限性決策樹對連續性的字段比較難預測對有時間順序的數據需要很多預處理決策樹的明確性可能會誤導使用者因為每個節點對應分割的定義都是明確不含糊的但在實際應用中會有問題比如為什麼認為年齡為歲的用戶通信話費欺詐風險高於歲的用戶？
　　聚類分析
　　聚類就是將數據分組成多個類或簇同一個簇中的對象之間具有較高的相似度與分類不同的是在進行聚集分析之前不知道要把數據分成幾組也不知道怎麼分因此在聚類分析之後要有對業務很熟悉的分析師來解釋聚類結果的意義聚類能夠幫助市場分析人員從客戶數據庫中發現不同的客戶群並用購買模式來描述各個客戶群的特征
　　神經網絡(Artificial Neural Network簡稱ANN)是常用的聚集算法應
From:http://tw.wingwit.com/Article/os/xtgl/201311/8835.html