官术网_书友最值得收藏!

1.2.5 大數據對應的厚數據

有這樣一個例子。某數據分析團隊為一家車貸公司搭建了一套信用審查數據模型,該模型可以根據貸款申請者的數據自動預測其在未來能否按時還款,以決定是否通過用戶的貸款申請。相比人工信用審核,模型預測是全自動的機器過程,在保證判斷準確率的前提下,它能為公司節省大量的人力成本。

該項目在客戶的工作地點開展,其工位處于一個信審專區,周圍有很多信審工作人員,他們每天的工作是審核貸款申請者的信息資料,審查其中存在的可能的騙貸行為,這將成為該申請者能否被成功授信的“減分項”。

雖然目的都是實現快速、準確的信貸審核,但數據建模的工作邏輯與人工審核存在明顯的差異。數據分析專家面對的是一串串數字,而業務人員面對的是鮮活的申請者。數據分析的基礎是客戶的申請資料,包括此人的性別、年齡、資產情況等基本信息,以及一些來自第三方平臺的風險數據(如該申請者有無犯罪記錄)。而另一方面,信貸審核人員在處理每筆信貸業務時,他們除了面對每個申請者的具體信息,還會通過電話核實申請者的身份,最終做出人工決策。可見,數據是分析師們每天的工作伙伴,但實際上大數據也存在局限性,如無法替代人們對真實業務的體會。

大數據是人們認識世界的一種方式,它將關于某人的一切量化為很多數據標簽并存儲。大數據的優勢很明顯,它具有通用的結構,每個用戶在這些維度上的數據都會被記錄。然而,不足之處在于,它僅僅是對世界認識的一個切片,對于切片之外的事物一無所知。

例如,面試官在面試新員工時,首先會查看申請者的簡歷,他的教育背景、工作經驗、語言能力等都是以固定結構記錄的數據,然而申請者給面試官留下的感覺,例如他是氣場強大的還是平易近人的,大數據則無法給出答案。

在一些項目中人們通過數據發現,有些教育程度較高的貸款申請者也可能會在未來逾期還款。這聽上去有些違背常理,然而精通業務的經理告訴我們這是合理的現象,那些所謂的高學歷是申請者在填寫表格時編造的。后者并不是大數據能夠捕捉的行為,但對理解申請者卻至關重要。

我們可以把人類認識世界的途徑分為兩種,一種是如今家喻戶曉的大數據,另一種則是一直長久存在,卻往往在這個時代被我們忽視的“厚數據”。如果將大數據比作對客觀世界的標準化切片,那么厚數據就是我們在每個獨特場景的深度感知。

簡歷上的文字屬于大數據,而面試官對申請者的感覺則屬于厚數據;表格中教育程度一列等于“大學”屬于大數據,而填寫者在背后的偽裝是厚數據;股票、匯率的歷史走勢是大數據,而酒吧里人們的閑聊則是厚數據。

大數據缺乏厚數據所攜帶的場景信息。我們對任何事物的理解都不能將其孤立為一個元素,還要考慮這個元素所處的具體場景,以及它與其他元素的相互關系。例如同樣的一杯紅酒,在點亮燭光的法國餐廳里或是在嘈雜的辦公桌前飲用,注定是不一樣的感受,雖然它們的化學質地是相同的;同樣是一個小時,在課堂度過或者是與好友一起度過,必然感覺是不同的長度,雖然它們的自然屬性沒有差異;兩名被數據標記有犯罪記錄的貸款申請者,雖然數據將它們一視同仁,然而一位只是過失的交通肇事,另一位則有搶劫銀行的前科,他們在未來的還款能力上或許大相徑庭。僅僅面對數據和算法,人們無法洞察所處的獨特場景,所以大數據分析與人類決策是相互補充的關系,而非相互替代的關系。

主站蜘蛛池模板: 体育| 英超| 长治县| 财经| 安阳市| 奈曼旗| 兴隆县| 怀来县| 义乌市| 正阳县| 通渭县| 宝山区| 新乡市| 东海县| 盐津县| 靖州| 朔州市| 东至县| 岳普湖县| 吴江市| 会昌县| 永德县| 高邑县| 张家口市| 留坝县| 满洲里市| 东莞市| 曲靖市| 沙坪坝区| 涞源县| 蓝山县| 安图县| 南投市| 镇赉县| 花莲市| 巢湖市| 太仆寺旗| 抚顺市| 光山县| 许昌县| 万载县|