- 銀行家的全面風險管理:基于巴塞爾II追求銀行價值增值
- 徐振東
- 5365字
- 2020-09-24 13:31:07
第三節
數據整合及其質量控制
一、業務系統整合
數據整合包括業務系統整合、數據源整合以及數據整合方法。例如,國際主流銀行信用評級數據主要從業務流程系統中直接獲得,以確保數據的及時性和準確性。前臺業務流程與后臺評級系統始終處于平行狀態,授信業務一旦發生,相關數據就會立即傳送到前臺,使之發揮決策支持作用;同時,業務流程系統和內部評級系統生成的數據記錄和分析結果都按照統一數據標準存入銀行數據庫,信用風險評級、市場風險計量、操作風險計量以及資本評估定期所做的參數分析和返回檢驗都是基于數據庫的歷史數據來完成,見圖3-7。

圖3-7 全面風險管理信息系統銜接與整合
二、數據源整合
在業務之外,還有許多重要數據源于銀行以外的政府部門或研究機構,如宏觀運行、產業結構、市場行情、法規變化等。發展中國家銀行大多內部數據積累不充分,且數據質量較差。要在短時間內建立一個能應用于實際業務的評級系統,就應以外部數據補充。在缺乏數據積累情況下,在確保所采用外部數據具有真實性、有效性及對銀行內部數據具有代表性的前提下,內部評級法銀行可在一定程度上依靠外部數據。中資商業銀行在缺乏數據積累的情況下,可通過適當方式從中央銀行、銀監會、國家統計局、財政部、國務院發展研究中心等政府部門或相關的外部評級機構獲取宏觀、微觀數據。源于不同系統的數據必須通過企業法人代碼或貸款卡號進行映射和鏈接,從而完成客戶信息集合。對于同一客戶,不同信息來源有時可能出現重疊字段,而信息內容又存在嚴重不一致,此時應通過適當方式加以核實。如確實無法確認哪一個是真實數據,就應依據風險計量保守原則,取風險較高的指標值。
數據整合的主要問題是,不同數據源的客戶標識和信息內容不同,造成客戶記錄匹配十分困難。這時,常用模糊匹配的算法尋找相同記錄,進行客戶匹配。不同來源的客戶信息共同具有的客戶信息片斷可用于客戶匹配,如電話號碼、姓名和地址等。在客戶記錄匹配時,如果兩兩配對,隨著數據增多,計算量將大大增加。根據公式n(n-1)/2,當有5萬條記錄時,記錄比較的次數為1249975000次。實際上,5萬條記錄對許多商業銀行還是很少的。為減少這方面工作量,可先對客戶記錄進行聚類分析,將其分成若干部分,只有分在相同客戶記錄才可以相互匹配,這樣就會大大減少運算量。
通過聚類和匹配,如果發現幾條匹配記錄,就對這些記錄合并。實際上,這也是實行客戶關系管理初衷,也就是把不同來源信息合并在一起,產生對客戶總體看法,如賬戶信息、信用等級、投資活動、對直接營銷反應等。在合并記錄時,客戶信息片斷互相矛盾,這時需要為信息合并建立一些規則,如各信息源權威不同,經常賬戶上的地址要比退休賬戶上的地址權威一些;越接近當前日期信息片斷,其準確性可能越高,重復率高的信息可能更準確一些。如三個信息源中兩個顧客電話號碼相同,重復電話號碼可能是正確的。
記錄匹配的完整性和準確性是很重要的。如果沒有對相同客戶進行匹配,銀行會把一個客戶當成兩個甚至更多客戶對待,客戶數量就夸大了。例如,根據美國META集團的研究,醫療機構病歷約有5%—30%是重復的。但同時,如果把本不應該合并的記錄合并了,這時對客戶的評價也是歪曲的。這些不完整、不準確和不可靠的匹配都會導致不準確的分析和決策,使銀行費用增加、利潤減少,例如對客戶信用等級認識錯誤會導致投資風險,對客戶價值認識不充分就會失去顧客,錯誤記錄會導致營銷資源浪費等。
三、數據反欺詐
欺詐性數據大多出現在客戶向銀行提供的授信申請材料中,對公司客戶而言,集中體現為企業提供的財務報表數據不夠真實。虛假財務報表主要有高估資產、低估負債、利潤最大化、巨額利潤沖銷、虛增主營業務收入、虛減成本費用、利用減值準備調節利潤、利用關聯交易操縱利潤、利用其他應收賬款調節利潤、利潤均衡化,等等。
根據常見的虛假財務報表,可以總結和積累一批實用的分析、識別公司財務報表信息失真的方法,提煉后并入專家分析系統,并將其模型化、程序化和系統化。
1.對關聯交易分析
識別方法是將來自關聯企業營業收入和利潤總額從企業利潤表中予以剔除,如果企業來源于關聯企業的營業收入和利潤所占比例過高,銀行就應特別關注關聯交易的定價政策、發生時間、發生地點等,以判斷企業是否通過關聯交易來進行報表粉飾。
2.對不良資產分析
識別方法是將不良資產總額與凈資產比較,如不良資產總額接近或超過凈資產,即說明該公司持續經營能力可能有問題;也可將當期不良資產增加額與當期利潤總額相比較,如前者超過后者,公司當期利潤表可能不真實。
3.對合并報表分析
將母公司財務數據與合并報表的數據進行比較分析,來判斷財務數據的真實性,以識別母公司通過子公司或孫公司來實現利潤虛增問題。
4.對或有事項分析
或有事項是指因過去的交易或企業行為造成的一種財務狀況。常見的或有事項有對外擔保、未決訴訟、未決索賠、稅務糾紛、產品質量保證、商業票據背書轉讓或貼現等。經驗表明,重大的或有事項往往蘊涵著嚴重的財務危機,在財務反欺詐過程中銀行分析人員應根據所涉及的金額,予以足夠的關注。
5.對重點科目分析
企業報表作假時,常用的賬戶包括應收賬款、其他應收款、其他應付款、存貨、投資收益、無形資產、補貼收入、四項準備等會計科目。如這些會計科目出現異常變動,必須認真對待,分析企業是否存在利用這些科目進行利潤操縱的可能性。
6.對預警信號分析
常見的風險預警信號包括:(1)應收賬款或存貨的增長速度遠遠大于銷售收入的增長速度;(2)公司利用會計方法達到利潤目標;(3)公司沒有新業務擴充計劃或財務計劃,但債務比重大幅增加;(4)公司在快速增長時出現失控;(5)在建工程一直掛在賬上,這往往意味著這是塊被廢棄的不良資產,或者是以前年度造假的產物;(6)公司管理階層以犧牲公司業務的其他方面去滿足利潤目標;(7)子公司長期虧損或業績平平,而企業卻熱衷搞兼并、收購等資本運作;(8)公司會計報表近乎完美;(9)企業做較大的會計調整,特別是在年末的調整應特別予以關注;(10)使利潤大幅度增加的特殊交易,當企業人員向信用評級人員解釋企業近期利潤大增的原因是幾筆特殊交易時,評級人員應進一步核實這些特殊交易;(11)因銷售增長而異常增加的應收賬款,或是虛增收入,或是放松賒賬而可能導致資產質量惡化;(12)擴大的凈利潤與經營活動產生的現金凈流量存在差異;(13)審計報告中出現保留意見,有保留意見的審計報告表明企業領導層與會計事務所存在重大分歧;(14)利潤總額與應稅利潤總額的差異增大,可能是沒有按照稅法規定提取折舊或攤銷,也可能是企業的一些費用和捐贈按規定不能稅前扣除,但企業卻扣除了。一旦出現上述類似的預警信號,信用評級人員就應謹慎地對待公司報表,包括財務報表注釋,要進行仔細分析和對比,尤其要分析公司財務長期變化趨勢,同時還要特別關注競爭對手、宏觀經濟環境等。
四、數據質量問題
數據質量問題的成因在于以下三點:一是產生于數據從創建者傳到使用者的過程。客戶數據大部分是由授信人員在做客戶信用調查時得到并錄入系統的,數據質量問題很可能產生于授信人員的調查過程與數據錄入過程。二是產生于數據從一個機構賣到另一個機構過程。如,銀行業分析時要使用的宏觀數據,主要從政府部門或研究機構購買,由于各機構本身統計口徑不一樣,容易造成數據不一致。三是產生于數據從一個系統傳到另一個系統的過程。如,授信數據從會計系統經過統計加工傳送到內部評級系統時可能產生操作或程序錯誤。
數據質量問題主要表現為以下九種形式:一是數據缺失。有可能數據本身確實不明確,使輸入人員無法判斷。另外,如不是貸款申請者經過公正數據,而申請者自行填寫,那不排除申請者故意隱瞞負面信息的可能。如果這個數據段中存在過多缺失值,該變量就不能進入模型。否則,模型會失去應有的解釋力。二是拼寫錯誤。錄入中英文時,有時會出現錯字或別字。屬性為文本的字段可能不會進入模型,但這種錯誤導致字段匹配時錯誤。三是不常用的縮寫。中、英文中存在的縮寫,一個縮寫可代表多種含義,因而造成歧義。四是自由格式的文本。錄入時錯誤地把多種屬性的字段填充到同一個字段內。五是值與字段含義不匹配。如,字段含義是城市,那么將國家名稱填寫會導致不匹配。六是違反特征從屬性。如城市和郵政編碼應該一致,行業代碼和所處行業應該保持一致。七是相似重復記錄。即,一個以上記錄代表同一個實體。重復記錄出現可能是因錄入人員粗心,還可能因匹配字段值不規范,造成查詢時無法有效匹配。八是相互矛盾的記錄。同一個實體某個屬性有多個不同值。九是錯誤引用。輸入數據與事實不符合,但計算機沒有判別能力,只能人為修正。
五、數據清洗方法
數據清洗是一個對輸入數據庫或量化模型的數據進行標準化和強化的過程。如,當格式不符合量化分析工具的要求,或原因代碼沒有像其他數據集中的代碼那樣標準化但需要映射到其他結構中時,均需數據凈化處理。數據清洗目的是確保數據傳送的準確性及符合指定數據格式。數據清洗工作是以人工或自動化方式進行,以減少系統數據不一致或誤差(如數據的重復、不正確、不再相關、過時以及誤用等)。數據清洗步驟包括數據剖析和數據標準化、數據驗證、數據配對、數據修正及數據記錄四個方面。另外在數據清洗過程中,將進行數據分歧檢查方法以確定數據的問題,這包括統計性、模式、分群、關聯規則分析。在數據優化過程中,數據清洗類別包括數據的使用、結構、格式及語義。數據清洗方法主要有基本處理法、缺失值處理法、重復數據處理法三類方法。在基本處理方法中又可分為簡單比較法、數據庫撞擊法以及數據編輯法三個次類方法。對于缺失值處理,主要通過替代或推算方法將缺失數據補齊:替代法是找到一個盡可能與缺失項類似的替代值;推算法則以現有統計資料為基礎,根據事物的聯系及其發展規律推算缺失數據。這兩類缺失值補救方法中常用的主要有演繹估計法、完全替代法、比例推算法、因素推算法、插補推算法、樣本量替代法、最近距離替代法、回歸替代法。在檢測重復記錄之前,需首先進行數據預處理。可從自由格式的字段中抽取數據結構。根據查找表來驗證字段值正確性,若發現錯誤,則加以更正。然后,進行數據標準化,將同一類型數據用統一格式表示。近年來,國際研究人員提出過很多消除重復數據的算法,如匹配重復記錄法、專家系統法以及數據挖掘法等,見圖3-8。

圖3-8 數據清洗方法結構示意圖
數據清洗中,至少應包括以下內容:(1)對數據初始檢查,至少包括檢查數據間會計聯系性規則,以保證數據質量。建模團隊應清晰地列出應檢查的規則,并總結檢查結果和處理方法;(2)對數據調整和平均,必須書面記錄這些調整規則和理由,對同一個數據集的調整規則應該是相同的;(3)在缺失值處理方面,對數據缺失的定義要有明確的標準,要有詳細記錄缺失值處理方法及理論依據;(4)在數據同質性檢測方面,用于建模的數據應在風險特征上具有一致性,建模團隊需有明確的方法檢測數據的同質性;(5)對數據的異常值要有明確定義,詳細記錄異常值處理方法及其理論依據;(6)建模前應對數據的連續性和單調性進行檢測,并分析和總結檢測的結果;(7)對數據的相關性進行分析,詳細說明和記錄因相關性而排除在外的風險因子;(8)數據清洗是一個循環過程,所有清洗方法都必須被反復使用,便于解釋,必須詳細記錄數據清洗程序和步驟,以便獨立的第三方能夠依照這些程序和步驟對同一數據集進行清洗之后達到相同的結果。
六、數據質量評價與監控
數據質量評價是對數據的完整性、代表性、充足性和一致性進行評價。評價數據完整性要看數據內涵上是否有完整的經濟意義,評價數據代表性要看數據是否真實代表了同類業務交易的實際狀況,評價數據充足性是看數據規模大小、數據觀察期長短是否滿足相關風險分析計量,評價數據一致性則要求同一數據源的不同觀察期或不同數據源之間具有可比性。數據質量評價通常有直接評價和間接評價兩種方法。在直接評價法中,可以通過計算機自動檢測數據集合,并提供數據質量的評價報告,檢測時要將用于檢測的程序名稱、算法及其他參考信息反映到數據質量報告中;也可以通過專家根據經驗直接檢查數據集合中的錯誤;還可以通過隨機抽樣檢測,抽樣比率一般在10%—20%,對重點要素適當提高抽樣比率,用計算機或人工方法對抽樣樣本進行數據檢查。
統計數據質量是指獲得觀察值與客觀現象實際發生值間的差異,差異大說明數據質量差,差異小表明數據質量好,因此要控制數據質量必須控制其獲取過程中的各種因素引起的偏差。從資料收集開始,直到后續的整理、描述、對比分析、估計,每一個環節都要監控管理,以減少數據偏差或傳遞誤差,所以,數據質量控制應貫穿于統計活動的全過程。
數據質量監控是對達到一定質量標準的數據持續監控,以保證數據質量持續穩定,防止數據質量下降。通常監控的重點集中在四點:一是重點監控關鍵數據,對客戶信用評級、債項風險評級的內部模型的關鍵輸入數據進行監控;對衡量市場風險的關鍵數據如日交易量、交易限額、波動性等關鍵數據的持續監控;對衡量操作風險關鍵事件發生、損失及影響等關鍵數據的持續監控。二是對直接來源于客戶的數據需要重點監控,對直接來源前臺交易的數據需要重點監控。三是潔凈數據持續性,避免重新弄臟。四是強化數據質量問責。明晰責任是確保數據質量的關鍵,必須強化數據責任人問責。