熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> Oracle >> 正文

髒數據潛在的隱患以及數據整合

2013-11-13 15:56:00  來源: Oracle 

  很少有什麼IT項目比數據整合更令人頭疼的了如果我們換個方式思考就會發現有一件事是比數據整合更可怕的那就是數據整合出現了問題

  有時候這是由於用戶出錯或者惡意用戶的蓄意破壞導致不良數據堆積引起的問題有時候原始數據是完好無損的但是從一個系統/數據庫轉移到另一個系統/數據庫的過程中丟失被刪截或者被修改了也會造成麻煩數據會過時也會在你企業內部的人事斗爭過程中不幸被流彈擊中要知道每個人都是死抱著自己的一小片數據存儲地盤不願與其他人分享

  有很多的方式會導致數據項目的流產本文列舉了其中五種最常見的情況告訴你究竟是什麼地方出錯了將會導致什麼樣的後果以及可以采取什麼措施避免同樣的情況發生在自己身上文中所涉及的公司名字一概隱去希望不要讓你自己的經歷像本文所敘述的對象那樣淪為他人口中的經驗教訓

   親愛的白癡郵件事件

  小心你的數據來源它有可能會反過來擺你一道這個事例源於一個大型金融服務機構的客戶呼叫中心就像幾乎所有的客服櫃台一樣這裡的客戶服務代表們要做的就是接聽電話並把客戶信息輸入到一個共享數據庫裡

  這個特殊的數據庫裡有一列是用來記錄稱謂的並且是可編輯的但是數據庫管理員並沒有對這一列的輸入規則進行約束例如只能輸入某某先生某某女士之類的稱謂反而可以接受客服代表輸入的任何長達字符的內容在傾聽一些客戶憤怒的投訴時部分客服代表就會給每條記錄添加一些他們自己想出來的不完全友善的注釋例如 這個客戶真是個白癡這類的注釋

  這種情況持續了很多年因為機構裡的其他系統都不會從這個稱謂列中提取數據所以沒有人注意到這一情況其後某天市場部決定發起一次直接郵寄活動來推廣一項新服務他們想出了一個絕妙的點子與其花錢購買一份名單不如利用客服櫃台的數據庫

  於是以諸如親愛的白癡客戶Linlin這樣的措詞抬頭的郵件開始源源不斷的發到客戶郵箱裡

  當然沒有任何客戶會簽約使用這項新服務該機構直到開始檢查他們所發出的郵件時才弄清楚前因後果

  我們擁有的數據不是屬於我們自己的如今世界的聯系日趨緊密很可能會有人找到了你的數據並把它利用在一個你完全想象不到的地方如果你從別的地方獲取數據那麼在你利用它們執行新任務時必須要確保你的數據質量管理水平過關了

  判斷水平過不過關取決於你要如何利用這些數據正確性是判斷數據質量的基本要素之一對於直郵產業數據的准確率達到%至%就可能就夠了而對於制藥業你就必須達到%甚至更高不過沒有什麼公司想要或者需要完美的數據更不用說為了得到完美數據而付出金錢因為要數據保持完美的代價太昂貴了問題是要怎樣利用數據以及數據的准確率達到什麼程度才足夠好

   死去的人有沒有選舉權

  相信大家對數據清洗(Data cleansing)這個術語並不陌生它是數據整合過程中必須進行的一個復雜過程通過檢測和清除掉垃圾數據(包括不正確過時冗余以及不完整的數據)以保證數據的正確性可靠性完整性和一致性從字面上我們就可以看出數據清洗是一個生死攸關的問題下面講述的也是生死攸關的事例年美國國會選舉期間某政府工作志願者在通過電話讓已登記的選民來投票的過程中發現每十個選民中有三個是已經死去的人因此沒有資格投票現代社會裡死者數據不全所引發的問題很常見確實也給生者帶來了很大的困擾

  對於諸如保險公司投資公司基金公司通訊公司等擁有大量客戶的服務類企業而言客戶數據是其重要的財富來源然而客戶數據質量問題卻一直是困擾企業開發新服務項目的絆腳石在一項關於客戶數據質量的調查研究中發現平均而言%的客戶數據記錄存在各種問題例如各種證件號碼輸入錯誤聯系方式過期等等其中有五分之一的數據問題是由於客戶的死亡造成的其中一部分客戶死亡時間超過十年卻仍保留著股東的身份

  這並不是客戶的疏忽只是自然發生的問題私營企業上市被並購或者拆分而他們的股東數據卻一直被保留著甚至長達數十年之久不過這些垃圾數據所引起的問題可能比起在不必要的郵寄費用上浪費一點錢更為嚴重最令人擔心的問題莫過於欺詐和盜竊ID如果這些情況發生在頗具影響力的機構組織裡必會導致更為嚴重的現實問題例如已故股東的紅利被陌生人兌現繼承人的繼承權被剝奪公司機密洩漏等等

  那麼要怎麼解決這個問題呢?利用商業評測軟件可以識別不同系統的異常數據並做好標記方便檢查即便如此所有的企業都應當加強重視做好內部監控嚴格執行例行的基本檢查事實上每一個企業都或多或少存在垃圾數據方面的問題從風險管理的觀點來看最好的解決方案就是持之以恆地檢查如果你從上文的內容能認識到這個自然發生的現象可能會對你產生什麼影響的話已經有了一個好的開始

   數據重復的代價

  用戶出錯會引發麻煩事用戶自作聰明造成的問題可能更嚴重某保險公司從上世紀年代開始就將大部分客戶資料保存在一個主應用軟件中並規定數據錄入操作員錄入新數據前先要搜索數據庫中是否已經有該客戶的記錄但是搜索功能執行起來非常慢而且不夠准確所以大多數操作員不再執行這一步驟而從頭開始輸入新記錄這樣做確實簡單輕松多了然而結果是很多客戶公司的記錄在數據庫裡重復達幾百次使系統運行地更慢數據搜索結果更加不准確形成了惡性循環

  不幸的是這個應用軟件已經根深蒂固的嵌入到該公司的其他系統了管理部門不願意花錢把它替換掉最後該公司的IT部門發現如果公司再也無法查找用戶資料了將會造成的每天萬美元的損失直到這時候公司才如夢初醒使用識別系統來清洗數據最終清除了近四萬條重復記錄

  重復數據的問題一直都讓IT管理員頭痛不已數據庫越龐大這個問題越嚴重但是很少有人真正認識到問題的嚴重性如果有人告訴你他的客戶數據庫裡有%的重復數據很可能低估了不過我們也沒有什麼靈丹妙藥徹底解決這個問題即使我們能夠利用數據匹配技術來沙裡淘金跨越多個數據庫找出唯一有用的信息最難的一關可能是讓企業裡的不同利益團體就什麼數據可以大家共享以及如何構建匹配達成一致同一個機構裡的兩個不同的部門可能對匹配和重復項有完全不同的定義類似的數據整合工作會因為相關人員不能對誰才是數據的所有者以及什麼數據可以拿來與別人交換的意見不和而土崩瓦解

   小心老化的數據

  相信很多人對魔域大冒險(Zork)這款最經典的文字冒險游戲還記憶猶新通過問答形式由游戲設置提供情景描述而玩家輸入選擇關鍵詞判斷來推動游戲發展是現代RPG游戲的鼻祖現在還有不少人仍在開發這類古老的游戲這也沒什麼問題是他們數據庫裡保存的用戶資料也同樣的古老

  某老款游戲開發商利用MailChimp的網絡營銷服務來聯系以前的一萬名客戶就是為了提醒他們游戲的第二版終於完成了他們所用的大部分電子郵件地址至少是十年前的其中有一部分是Hotmail帳戶很久之前就被遺棄不用了以致微軟已經把這些郵件地址當成垃圾郵件陷阱了於是一天之內所有的MailChimp郵件都被Hotmail的垃圾郵件過濾器列入了黑名單

  幸好游戲開發商以前保留了原始記錄包括每位客戶下載其游戲時的IP地址這成了MailChimp的救命稻草MailChimp給Hotmail的客服發了緊急申明證明這些郵箱帳戶是合法客戶只是年代比較久遠第二天hotmail就把MailChimp從黑名單中解救出來了

  所有的數據都會快速老化就像放射性物質發生衰變一樣而聯絡數據比其他數據老化得更快數據庫管理人員必須定期更新每一個系統的數據

  美國工商資料庫是個巨額產業而聯絡資料是所有資料中最受銷售人員青睐的但也是最難維護的年成立於美國的是一個在線商務聯絡資料數據庫面向銷售專業人員采用Wiki式數據清洗方式來維護該網站的三十多萬名用戶通過上傳新名片資料或糾正錯誤的名片資料來換取點數上傳的每條記錄必須完整如果上傳不正確或是資料太老舊就會扣除相應的點數而用戶能得到的利益就是用獲得的點數購買自己所需要的名片資料

  Jigsaw的首席執行官Jim Fowler稱一家科技公司想要把他們公司的數據庫和Jigsaw的數據庫進行比較以便清除不良數據該科技公司擁有四萬條記錄其中只有%是當前可用的而且全部數據都不完整Jigsaw發現他們大部分合作客戶都擁有很多毫無價值的數據根本就沒辦法去匹配糾正公司花費了數百萬美元在客戶關系管理軟件上可見這些數據有多糟糕有時候公司的真正價值不在擁有的數據本身而在於有沒有能力與時俱進地跟上數據變化的速度Jigsaw的能力正是在於完善數據並進行自我清洗如果沒有自我修正的機制Jigsaw也只不過是一家毫無價值的數據公司而已

   小錯誤與大麻煩

  好數據和不良數據之間的差別很可能就體現在一個小點上某專案優化解決方案供應商的高級顧問告訴我們他曾為一個大型數據整合項目做顧問這個項目看起來一切都運行正常但六個月後某人打開一個數據表只看到了一排排符號什麼數據都沒有

  這其實只是一個字符代碼錯誤本來在一些域裡應該用省略號(三個點)的但有人只輸入了兩個點導致了整個數據線的崩潰該公司不得不費盡力氣從備份中重新創建整個數據庫查找省略號然後用正確數據替換

  很多時候問題不僅僅是簡單的數據錄入錯誤或者是髒數據進髒數據出的問題而已很多企業在進行不同操作系統之間的數據移植或從老的SQL版本中升級數據等操作時並沒有做好充分計劃他們總是希望利用手頭上任何可利用資源火速進行而把數據清洗任務冀望於以後完成更甚者他們的測試環境和操作環境可能並不一致或者他們只用少量數據子集來測試沒有測試過的數據很可能會在後面的操作引發大麻煩

  企業經歷著深刻的技術革命卻沒有在數據整合和維護的管理上花費足夠的時間和精力最終只會成為不良數據的犧牲品在數據遷移的過程中有無數的機會讓它們成為不良數據

  不要指望IT部門來驗證你的數據讓與這些數據密切相關的有能力的用戶來幫助你做好數據整合計劃和測試在你決定進行整合之前先查看一下所有數據確定用於從中提取數據的應用軟件如果可以最好測試所有的數據而不是其中某個子集要知道正如上面的例子所示就算是一個小的不能再小的錯誤都會把你和你的數據拉進痛苦的深淵

  我們最後再用一個實例來說明小錯誤和大麻煩之間的關系

  某商業風險管理解決方案供應商的某位客戶創建了一個SQL服務器數據庫用來確定是否有錯誤的CAD文件在其網絡內部流竄原本的設想是如果錯誤的數據包超過某設定阈值公司管理員就會知道並進行數據挖掘和清洗工作問題是他們不小心顛倒了數據庫的規則設置(把兩個阈值放反了)導致錯誤數據包越多提交公司的報告裡顯示的網絡運行情況就越好最後該公司網絡被某種蠕蟲病毒入侵破壞了他們的工程CAD檔案他們不得不重頭開始花費大量的金錢來重建大部分的文檔這一切都是因為一個非常簡單數據提取設置錯誤造成的

  希望本文講述的內容能夠讓大家對數據整合有個正確的認識數據整合不可規避並且要謹慎行事


From:http://tw.wingwit.com/Article/program/Oracle/201311/17541.html
    推薦文章
    Copyright © 2005-2013 電腦知識網 Computer Knowledge   All rights reserved.