三
概念模型
數據模型設計的第一步是對用戶需求的歸納
需要綜合考慮業務劃分和用戶組織兩方面的問題
在明確需求的基礎上
可以進行邏輯數據模型的設計
大致需要經過分為三個步驟
高層模型設計即概念模型設計
確定數據倉庫的主要主題及相互關系
中層模型設計明確各主題域的實體
底層模型設計明確各個實體的屬性
本章以國內某財產保險公司的業務為例介紹財產保險行業的數據倉庫建模
財產保險業務與公司組織機構
下圖是國內財產保險公司的主要組織機構
國內財產保險經營的主要保險業務如下
; 機動車輛保險
; 家庭財產保險
; 企業財產保險
; 建築安裝工程保險
; 貨物運輸保險
; 船舶保險
; 航空航天保險
; 其它保險
數據倉庫概念模型
目前保費收入還是國內財產保險企業的主要利潤來源
在激烈的市場競爭中客戶是競爭的焦點
在數據倉庫中客戶信息占有極為重要的地位
圍繞著客戶資料信息
客戶的投保記錄
索賠記錄都具有極高的分析價值
另外合作伙伴對保險業務的開拓也具有重要地位
如保險代理人
經紀人等中介公司的相關信息
基礎數據倉庫
基礎數據倉庫用以存儲詳細的業務數據
采取以客戶信息為中心
各個業務環節數據為基礎的中心
發散型結構
系統面向經營分析
以經營業務數據為主
如下圖所示
基礎數據倉庫概念模型介紹
—— 客戶資料
負責存儲用戶的詳細資料
主要的客戶屬性包括
客戶ID
用戶第一次投保時間
資料更新時間
業務類型
用戶特征屬性
用戶類型
繳費情況
投保情況
信用情況
保費收入水平等等
客戶資料主題的數據主要針對企業用戶和大客戶
在可能的情況下
盡量體現客戶間的關系
比如某一家庭財險用戶隸屬於某一企業客戶
客戶資料數據體現最新的客戶狀態
客戶資料永久在線保存
當客戶資料發生變化時
舊的客戶信息被轉移到客戶歷史資料庫中
在每一個客戶的生命周期中
客戶資料隨時可能發生變化
客戶歷史資料數據詳盡的記錄每一次變化的細節
為以後客戶信用評估和用戶行為分析需求提供依據
客戶歷史資料永久在線保存
—— 客戶投保記錄
以詳細的保單數據為主
體現在某一時間段內客戶的投保情況
由於數據量比較龐大
客戶投保記錄一般在數據倉庫中在線保存兩年
最長不超過五年
投保記錄是業務分析最重要的數據基礎
必要的時候
投保記錄可以為很多業務提供數據支持
比如大客戶管理等
—— 客戶繳費記錄
記錄用戶投保後保費的繳納情況
從中可以了解保險公司與每一個客戶在不同業務的應收情況
是對業務發展的重要衡量依據
也是對客戶群進行細分的重要指標
不同保險企業對繳費記錄在線保存的時限要求不同
一般在一年以上
五年以下
—— 客戶索賠記錄
客戶索賠記錄是過去客戶每次索賠的詳細記錄
比如索賠金額
時間
保單號
立案號
險種
索賠清單
索賠單證
事故描述等
索賠記錄是客戶行為模式的重要組成
也是反欺詐分析
客戶流失分析的重要依據
—— 客戶賠付記錄
記錄保險公司對每一個客戶的每一筆賠付
主要的信息包括賠付時間
立案號
賠案號
單證
賠付計算情況
損失原因
賠付金額
是否通融賠付
通融賠付的原因和通融賠付金額等
與索賠記錄相結合
可以了解保險公司對客戶索賠的反應時間和處理速度
—— 客戶退保/退費記錄
了解用戶退保和退費的情況
每一筆退保/退費的原因
時間
保單號
金額等等
—— 中介信息
描述中介公司的類型
比如經紀人
兼職代理人或專業代理人
各中介公司的業務量
保險公司之處的中介費用等等
基礎數據倉庫概念模型的實現
概念模型的意義在於體現用戶的需求和基本的數據組織結構
在實際的設計過程中
可能需要根據實際的業務情況進行模型的拆分
比如客戶資料模型
針對不同客戶的情況拆分成企業客戶
個人客戶
集團個人客戶
投保記錄模型
根據不同的業務拆分成車險投保記錄
財產險投保記錄
運輸險投保記錄
船舶險投保記錄等
根據不同業務情況設計業務主題
數據集市
詳細業務數據是數據倉庫的基礎
但對於金融企業來說
對業務發展宏觀情況的把握是比詳細的客戶分析更為迫切的需求
所以在初期任何金融行業數據倉庫的應用都以對聚合數據的分析為主
聚合數據存儲在數據集市中
數據集市的數據直接通過查詢工具提供給最終用戶
所以數據集市的設計直接關系到數據倉庫應用的成敗
現階段
我國大多數金融數據倉庫系統正處於初始階段
其主要功能需求是了解各省分公司
子公司和各項業務的發展和運營情況
因此數據集市的設計是數據模型設計最重要的環節
數據集市的數據結構可以按照數據粒度和數據所體現的業務范圍劃分
按照數據粒度劃分
數據集市按照數據粒度的大小可以劃分為三個部分
輕度匯總
中度匯總
高度匯總
匯總程度越高
數據粒度越大
數據在線保留時間越長
所體現的業務事實越宏觀
如下圖所示
按照數據粒度劃分的數據集市結構
輕度匯總數據可以支持很多對客戶個體的業務分析
比如從基礎數據倉庫投保記錄匯總生成每個用戶一段時間的投保情況
中度匯總數據在業務分析中經常被用到
大多數情況用於對宏觀客戶群體的業務分析
比如制定保費政策時
可以通過中度匯總數據了解不同險種不同時間的發展和收益情況
高度匯總數據用於了解保險公司業務整體的運營和發展情況
在實際的設計中
可以根據用戶需求決定針對不同的業務采用不同的數據粒度
按照業務劃分
按照業務進行數據集市結構的劃分
可以把數據集市從總體上分為兩個模塊
綜合業務分析模塊和獨立業務分析模塊
如下圖
按照業務劃分的數據集市結構
—— 綜合業務分析
綜合業務分析主要面向保險公司整體業務的分析
從綜合業務分析可以了解保險公司的用戶構成情況
中介發展情況
業務收入情況
賠付情況
共保/分保
客戶服務
保費收入情況和競爭對手發展情況
從綜合業務模塊可以了解各個業務的總體發展情況
但由於各個業務屬性的差異
詳細的業務分析必須進入獨立業務分析模塊
—— 獨立業務分析
財產保險各業務
各險種的業務特點具有極大差異
對不同險種業務人員所關心的信息也不盡相同
所以各個業務在獨立業務分析模塊構成不同的分析主題
除此之外對有共性的業務進行綜合構成綜合的業務分析主題
比如個人大客戶分析
企業客戶業務分析就是把相關的業務主題進行綜合的結果
四
發展與擴充
數據倉庫數據模型的設計在滿足目前業務需求的基礎上
必須考慮未來的業務情況和需求
需要認真考慮兩方面的問題
; 適應未來業務需求和技術環境的改變
; 數據倉庫本身涉及業務范圍的擴展
適應未來的變化
分段式數據倉庫結構可以大大提升數據倉庫適應變化的能力
在未來可能對數據倉庫產生影響的變化無外乎兩種
; 業務需求的變化引致對信息需求的變化
; 技術環境的變化
適應業務需求的變化
用戶需求的變化根據變化的程度和對數據倉庫系統的影響被分為兩個不同的層次
—— 可自適應的變化
即信息的需求雖然有所變化
但利用已經存儲在數據集市中的數據仍然可以支持
需要改變的只是數據訪問和信息展現的方式
這不需要對數據倉庫的數據結構進行修改就可以實現
在進行數據模型設計時
在保證查詢效率的前提下
要盡量使各個業務主題可以滿足最多的信息需求
—— 需要調整的變化
即數據集市的數據雖然無法滿足信息的需求
但可以從基礎數據倉庫中的數據獲得
針對這樣的變化有兩種處理方法
; 如果這個變化只是偶爾出現
可以直接從基礎數據倉庫的數據中進行數據的查詢和分析
這樣可能會犧牲一些性能
但不需對數據倉庫的結構和數據模型進行修改
; 另一種方法是針對以後將頻繁使用的新業務需求
可以采取修改現行數據集市和建立新的數據集市的方法實現
由於數據集市只是對基礎數據倉庫中相關的詳細數據進行聚合
所以只需要很小的工作量就可以調整數據倉庫實現新的需求
適應技術環境的變化
技術環境的變化也是比較普遍出現的變化
比如業務系統的升級或遷移
可能對數據倉庫的結構造成較大影響
分段存儲區和基礎數據倉庫的使用
把這種風險降到最小
分段存儲區是業務數據進入數據倉庫之前的緩存區
復雜的數據轉換
清洗工作在分段存儲區進入基礎數據倉庫時實現
當業務系統的數據結構發生變化時
可以利用從業務系統到分段存儲區的數據抽取操作把這些變化與數據清洗轉換操作隔離即在對新的業務系統進行數據抽取操作時
進行適當的數據結構轉換
使分段存儲區中的數據與原來保持一致
避免對數據倉庫的數據結構和主要的後台處理程序造成影響
從業務系統到分段存儲區的數據抽取程序只需十分簡單的修改就可以實現需要的功能
元數據管理的意義
元數據管理系統可以大大提高數據倉庫系統適應變化的能力
元數據記錄數據倉庫過程中設計的業務規則
數據結構
數據移動規則等
一旦上述某一點發生變化
可以通過元數據管理工具
進行影響分析
定位需要修改的目
From:http://tw.wingwit.com/Article/os/xtgl/201311/8925.html