書名: 專業倫理與職業素養:計算機、大數據與人工智能作者名: 匡芳君 陳偉 周蘇主編本章字數: 1340字更新時間: 2023-06-28 15:37:46
1.2.5 大數據對應的厚數據
有這樣一個例子。某數據分析團隊為一家車貸公司搭建了一套信用審查數據模型,該模型可以根據貸款申請者的數據自動預測其在未來能否按時還款,以決定是否通過用戶的貸款申請。相比人工信用審核,模型預測是全自動的機器過程,在保證判斷準確率的前提下,它能為公司節省大量的人力成本。
該項目在客戶的工作地點開展,其工位處于一個信審專區,周圍有很多信審工作人員,他們每天的工作是審核貸款申請者的信息資料,審查其中存在的可能的騙貸行為,這將成為該申請者能否被成功授信的“減分項”。
雖然目的都是實現快速、準確的信貸審核,但數據建模的工作邏輯與人工審核存在明顯的差異。數據分析專家面對的是一串串數字,而業務人員面對的是鮮活的申請者。數據分析的基礎是客戶的申請資料,包括此人的性別、年齡、資產情況等基本信息,以及一些來自第三方平臺的風險數據(如該申請者有無犯罪記錄)。而另一方面,信貸審核人員在處理每筆信貸業務時,他們除了面對每個申請者的具體信息,還會通過電話核實申請者的身份,最終做出人工決策。可見,數據是分析師們每天的工作伙伴,但實際上大數據也存在局限性,如無法替代人們對真實業務的體會。
大數據是人們認識世界的一種方式,它將關于某人的一切量化為很多數據標簽并存儲。大數據的優勢很明顯,它具有通用的結構,每個用戶在這些維度上的數據都會被記錄。然而,不足之處在于,它僅僅是對世界認識的一個切片,對于切片之外的事物一無所知。
例如,面試官在面試新員工時,首先會查看申請者的簡歷,他的教育背景、工作經驗、語言能力等都是以固定結構記錄的數據,然而申請者給面試官留下的感覺,例如他是氣場強大的還是平易近人的,大數據則無法給出答案。
在一些項目中人們通過數據發現,有些教育程度較高的貸款申請者也可能會在未來逾期還款。這聽上去有些違背常理,然而精通業務的經理告訴我們這是合理的現象,那些所謂的高學歷是申請者在填寫表格時編造的。后者并不是大數據能夠捕捉的行為,但對理解申請者卻至關重要。
我們可以把人類認識世界的途徑分為兩種,一種是如今家喻戶曉的大數據,另一種則是一直長久存在,卻往往在這個時代被我們忽視的“厚數據”。如果將大數據比作對客觀世界的標準化切片,那么厚數據就是我們在每個獨特場景的深度感知。
簡歷上的文字屬于大數據,而面試官對申請者的感覺則屬于厚數據;表格中教育程度一列等于“大學”屬于大數據,而填寫者在背后的偽裝是厚數據;股票、匯率的歷史走勢是大數據,而酒吧里人們的閑聊則是厚數據。
大數據缺乏厚數據所攜帶的場景信息。我們對任何事物的理解都不能將其孤立為一個元素,還要考慮這個元素所處的具體場景,以及它與其他元素的相互關系。例如同樣的一杯紅酒,在點亮燭光的法國餐廳里或是在嘈雜的辦公桌前飲用,注定是不一樣的感受,雖然它們的化學質地是相同的;同樣是一個小時,在課堂度過或者是與好友一起度過,必然感覺是不同的長度,雖然它們的自然屬性沒有差異;兩名被數據標記有犯罪記錄的貸款申請者,雖然數據將它們一視同仁,然而一位只是過失的交通肇事,另一位則有搶劫銀行的前科,他們在未來的還款能力上或許大相徑庭。僅僅面對數據和算法,人們無法洞察所處的獨特場景,所以大數據分析與人類決策是相互補充的關系,而非相互替代的關系。
- 立體構成:概念 應用與欣賞(第2版)
- 鄒為誠《綜合英語教程(5)》(第3版)學習指南【詞匯短語+課文精解+練習答案】
- 金融業會計學
- 鄒為誠《綜合英語教程(3)》(第3版)學習指南【詞匯短語+課文精解+全文翻譯+練習答案】
- 戴桂菊《俄羅斯文化》課后習題詳解
- 設計概論(微課版)
- 劉潤清《新編語言學教程》配套題庫【課后練習+章節題庫(含名校考研真題)+模擬試題】
- 電工與電子技術基礎實驗
- 湖南大學經濟與貿易學院434國際商務專業基礎[專業碩士]歷年考研真題及詳解
- 留學生分級漢語教材:語法
- 汪戎《管理學》筆記和課后習題詳解
- 北京外國語大學242二外俄語歷年考研真題及詳解
- FLASH動畫設計與制作
- 國際物流與貨運代理
- 高級財務會計學