官术网_书友最值得收藏!

第五節
數據倉庫和數據集市

國際主流銀行在內部評級體系開發過程中,將70%以上的資源和時間投入到數據庫建設上。利用數據庫、聯機分析處理和數據挖掘技術的強大功能,銀行可以建立企業客戶群、個人客戶群的數據庫,并對企業的結構、經營、財務、市場競爭等多個數據源進行統一組織,從而形成一體化的存儲結構,為決策分析奠定基礎。風險數據集市管理是銀行內部評級法的基石,主要包括幾個部分,即ETL層、數據倉庫、數據集市、模型建立、元數據管理、數據質量管理、數據倉庫監控與管理等。

一、數據ETL層

在使用業務系統進行風險分析之前,對數據進行清洗和整理,一方面可進一步提高分析效能,同時也可以提升模型開發效果。數據抽取指從最佳數據源中獲得所需數據。這是將數據導入數據倉庫的第一步。抽取意味著讀取并理解元數據,并復制數據倉庫所需要的部分,它由選擇、全抽取、Delta抽取等功能組成。數據轉換包括將元數據格式變為目標數據庫格式的模塊。轉換是選擇、變更或操作數據的過程。一般而言,轉換包括映射、清洗、匯總、重排和排序等步驟。轉換過程中使用的業務規則必須在元數據中加以捕捉和保存以確保對數據有一個恰當和一致的理解。數據加載指將轉換好的數據放入數據倉庫的過程,通過批加載工具處理大量和預排序數據,可優化數據加載的性能。

二、數據倉庫

數據倉庫是一個集成和集中化的數據存儲,它由多個主題的企業級數據組成,包括低層的、細分的、為報表目的而長期保存的數據。在數據倉庫里,每個數據單元都和特定的時間相關。數據倉庫包括原子級別的數據和輕度匯總的數據,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。因此,根據不同的需求和技術條件,數據倉庫可以是一個或多個數據集市集合,也可以是一個操作型數據存儲和多個數據集市的集合,這完全取決于對業務的需求以及基礎條件、性能、要求具備的可擴展性和靈活性的綜合分析。數據倉庫提供銀行用于決策支持的當前和歷史數據,可以提供很好的DSS(決策支持系統)功能。一個典型的銀行數據庫系統通常包含數據源、數據存儲與管理、聯機分析處理服務器、前端工具與應用四個部分,見圖3-10。

數據源包括銀行內部信息和外部信息。內部信息包括存放于銀行操作型數據庫中(通常是關系數據庫)各種業務數據和辦公自動化(OA)系統中包含的各類文檔數據。外部信息包括相關法律法規、市場信息、競爭對手信息及各類外部數據和文檔等。

圖3-10 數據倉庫系統基本結構

對數據存儲與管理是整個數據倉庫系統的核心,在現有各業務系統基礎上,進行數據抽取、清理和有效集成,并按照主題重新組織,最終確定數據倉庫的物理存儲結構;同時組織存儲數據倉庫元數據,具體包括數據倉庫字典、記錄系統定義、數據轉換規則、數據加載頻率以及業務規則等信息。數據倉庫分為企業級數據倉庫和部門級數據倉庫(常稱“數據集市”)。數據倉庫管理包括數據的安全、歸檔、備份、維護、恢復等工作。

聯機分析處理(OLAP)服務器。對分析需要的數據按照多維數據模型進行再次重組,以支持用戶多角度、多層次的分析,發現數據趨勢。其具體實現可分為關系型聯機分析處理(ROLAP)、多維聯機分析處理(MOLAP)和混合聯機分析處理(HOLAP)。關系型聯機分析處理基本數據和聚合數據均存放于關系數據庫中;多維聯機分析處理基本數據和聚合數據均存放于多維數據庫中;而HOLAP是ROLAP與MOLAP的綜合,基本數據存放于關系數據庫之中,聚合數據存放于多維數據庫中。

前端工具與應用。前端工具主要包括各種數據分析工具、報表工具、查詢工具、數據挖掘工具以及各種基于數據倉庫或數據集市開發的應用。其中數據分析工具主要針對聯機分析處理服務器,報表工具和數據挖掘工具既針對數據倉庫,同時也針對聯機分析處理服務器。

數據庫之父W. H. Inmon在其著作《建造數據庫》(Building the Data Warehouse)一書中將數據倉庫定義為:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持決策,他提出數據倉庫建設以數據驅動為中心,通過構建新數據模型,將用戶系統的數據整理、轉換并存入其中,最終建立數據庫;NCR數據庫主要是以應用為驅動中心,SAS數據庫則以業務需求驅動為中心。數據庫建設流程見圖3-11。

圖3-11 銀行數據庫建設流程示意圖

在實際規劃中要做好戰略部署、業務需求發現、數據源系統分析、數據質量評估以及邏輯數據模型設計等工作。最初確定業務范圍是通過對業務領域的需求進行分析來界定的,同時對原有數據基礎進行分析,并通過相互交流,最終形成一個良好的數據模型,見圖3-12。

圖3-12 數據倉庫規劃流程示意圖

三、數據集市

數據集市是針對某一主題、部門或用戶類別的一組數據集合。這些數據經過優化以達到快速訪問和分析報告目的;數據結構通常是高度匯總并具有索引的。如果說數據倉庫是建立在企業級的數據模型之上的話,那么數據集市就是企業級數據倉庫的一個子集,它主要面向部門級業務,并且只面向某個特定的主題。數據集市的設計可以采取迭代式的方法。在迭代式開發中,每個迭代為上一次的結果增加了新的功能。功能增加的順序要考慮到迭代平衡以及盡早發現重大風險。商業銀行可以先從數據集市入手,就某一個特定的主題(如信用風險評級、限額設置等)先做數據集市,再建設數據庫。可以以數據集市形式存儲信用風險數據,用戶可以讀取大量數據,包括歷史數據,利用集市可為數據挖掘、在線數據分析和報表工具提供充足的歷史數據。數據超市的多維數據庫模型可以提高在線分析處理的效率,同時支持用戶進行隨時數據查詢(ad-hoc query),通過OLAP工具建立管理報表,讓用戶進行在線數據分析衡量信用風險。數據集市中至少應包括多年的信用風險因素信息與部分數據信息,以滿足數據挖掘與管理報表需求。

四、數據倉庫監控與管理

倉庫監控與管理要跨越數據倉庫從創建到最后引退的整個生命周期的全過程。數據倉庫監控與管理對于確定數據倉庫為業務帶來的持續的價值貢獻起著重要作用。數據倉庫監控與管理主要由兩大部分組成,即營運管理和服務管理。

營運管理包括兩方面:一是通過最終用戶使用訪問工具而實現運營,它們的部分工作就是操作數據倉庫以獲取所需的信息;另一方面更具技術性和操作性意義,即在數據被加載到數據倉庫前數據緩沖階段給予支持并參與數據倉庫的運營、使用計劃以及維護的相關活動。具體說來,數據倉庫運營主要包含:技術管理、工作生產管理、數據倉庫應用軟件與技術組件的管理與維護、應用軟件與技術組件的監控、計劃信息技術資源使用、性能管理和優化、存檔與清洗、安全管理、數據源管理、征收服務費、風險管理。

服務管理部分主要考慮倉庫綜合管理,在培訓支持、進度報告、元數據管理、意見管理、變更需求、數據倉庫更新、演進、控制和結果監控方面對用戶影響更多,主要包括培訓與支持-運作工具、培訓與支持-數據倉庫內容、查詢支持、數據倉庫狀態用戶報告、元數據改進與更新、意見管理、變更需求管理、數據倉庫使用延展、嚴禁、結果與監控等。

數據倉庫的組織管理方式決定了它是有別于傳統數據庫模式的,需要按照風險管理信息系統的主題要求,針對現有各業務系統的數據進行儲存、加工,按照覆蓋整個銀行范圍的要求來展現風險管理信息。數據倉庫不是靜態的概念,必須與銀行業務聯系起來,只有將信息及時提交給需要這些信息的使用者,供他們做出改善業務經營的決策,信息才有意義。而把信息加以整理、歸納和組合,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,數據倉庫是一個工程,也是一個持續更新的過程。

主站蜘蛛池模板: 中牟县| 江华| 中卫市| 沈阳市| 通道| 满城县| 东乡| 丰宁| 信宜市| 卓尼县| 云安县| 婺源县| 民丰县| 临沧市| 富锦市| 太和县| 西畴县| 德清县| 罗甸县| 略阳县| 浦东新区| 栾川县| 汾西县| 江山市| 石门县| 合作市| 台中县| 苏尼特左旗| 洛浦县| 蓝田县| 徐水县| 齐河县| 苏尼特右旗| 海宁市| 旌德县| 辉南县| 祁连县| 自治县| 昂仁县| 邵东县| 玉环县|