- 湛廬精品·行為決策八部曲
- (以色列)丹尼爾·卡尼曼 (法)奧利維耶·西博尼 (美)卡斯·R.桑斯坦等
- 4018字
- 2021-11-19 11:04:56
引言 Introduction
偏差與噪聲,人類判斷的兩類錯誤
試想一下,你的朋友組成了A、B、C、D共4支隊伍,來到一個射擊場。每隊中有5個人,他們共用一支來復槍,且每人只開了一槍。圖0-1顯示了他們的射擊結果。

圖0-1 4支隊伍的射擊結果
理想情況是,每一槍都能正中靶心。
A隊幾乎達到了理想情況,他們的每一發(fā)子彈都緊緊圍繞著靶心,接近完美模式。
B隊的每一發(fā)子彈都偏離了靶心,我們可以稱其為偏差隊。在圖0-1中,我們可以根據(jù)B隊偏差的一致性進行這樣的預測:如果該隊中的某位成員再開一槍,我們敢說子彈的落點也會與前5次落點的區(qū)域相同。偏差的一致性也許有原因可循:B隊使用的來復槍的瞄準器歪了。
C隊的子彈落點很分散,我們可以稱其為噪聲隊。子彈的落點大致都在靶心四周,因而沒有明顯的偏差。如果該隊的某位成員再開一槍,我們很難準確預測他可能擊中的位置,而且我們也無法從C隊的結果想出任何有趣的假設。我們只知道C隊的成員不太擅長射擊,但確實不知道為什么子彈的落點如此分散,會充斥著如此多的噪聲。
D隊是偏差與噪聲共存隊。與B隊類似,D隊的落點基本上都偏離了靶心;與C隊的相似之處在于,D隊的落點也很分散。
當然,這不是一本教射擊的書,我們的主題是人類判斷的錯誤。偏差和噪聲,即系統(tǒng)性偏差和隨機分散,是錯誤的不同組成成分,舉射擊的例子,只是為了闡明兩者的差異。
射擊場只是一種隱喻,用來說明人們在做判斷時會出現(xiàn)什么樣的錯誤,尤其是在代表組織成員做出各種判斷時。在這些情境中,我們會發(fā)現(xiàn)圖0-1展示的兩類錯誤。有些判斷存在偏差,它們整體偏離了目標;有些判斷存在噪聲,我們期望人們就某個目標達成一致,到頭來他們卻產(chǎn)生了嚴重的分歧。很遺憾,很多組織同時受到了偏差和噪聲的困擾。
圖0-2說明的是偏差和噪聲之間的重要區(qū)別。如果隱去靶子看各隊的子彈落點情況,那么最后每個隊的射擊結果就會如圖0-2所示。

圖0-2 隱去靶子后的子彈落點情況
此時,你無法分辨是A隊還是B隊的子彈落點更接近靶心,但你能一眼看出,相比于這兩隊,C隊和D隊存在更多的噪聲。事實上,你對各隊射擊結果分散程度的了解與你觀察圖0-1時一樣多。噪聲的一個普遍特性是:你可以在對目標或偏差一無所知的情況下,識別噪聲,并對它進行測量。
方才提到的噪聲的普遍特性,對本書意義重大,因為在本書中,我們的很多結論,也都是通過研究人們在“真實答案”未知甚至永遠無法獲知的情況下做出的判斷而得出的。當不同醫(yī)生為同一位患者做出了不同的診斷時,我們可以僅研究他們的分歧點,而無須知道患者的病情;當電影公司主管評估一部電影的市場效益時,我們可以僅研究他們意見的差異性,而不必知道這部電影最終的票房,甚至不必知道它有沒有拍攝完。也就是說,在衡量這些差異時,我們無須知曉誰對誰錯。要測量噪聲,我們只需看“靶子的背面”。
要想理解判斷中的錯誤,我們必須同時理解偏差和噪聲。有時候,噪聲甚至是更為重要的問題。然而,在有關人類錯誤的公開討論,以及世界各地的組織中,很少有人認識到噪聲的重要性。偏差是臺上的主角,而噪聲只是幕后的一個不起眼的參與者。已經(jīng)有成千上萬篇科研文章和數(shù)十本暢銷書討論過偏差的話題,但討論噪聲問題的作品卻少得可憐。本書的寫作目的就是修正這一失衡的狀態(tài)。
在現(xiàn)實的決策中,噪聲的數(shù)量往往令人觸目驚心。下面幾個例子展示了在準確性非常重要的場景中,噪聲存在的數(shù)量有多大:
· 醫(yī)學診斷中存在噪聲。不同醫(yī)生對同一患者是否患有皮膚癌、乳腺癌、心臟病、肺結核、肺炎、抑郁癥等疾病,會做出不同的判斷。精神科診斷中的噪聲尤其多,顯然是因為精神科醫(yī)生的主觀判斷對診斷結果起決定性作用。然而,在一些并不應該存在噪聲的領域,例如在對X線片報告的解讀中,也存在著大量噪聲。
· 兒童監(jiān)護權判定中存在噪聲。兒童保護機構中的案件負責人需要評估兒童是否存在受虐待的風險,如果存在,則需要進一步評估是否需要將他們送去寄養(yǎng)。鑒于有些案例的負責人比其他負責人更有可能做出將兒童送去寄養(yǎng)的決策,所以該系統(tǒng)存在噪聲。多年后,被某些過于嚴格的負責人送去寄養(yǎng)的不幸兒童,境遇大多很糟糕:犯罪率更高,青少年時期懷孕率更高,收入更低。
· 預測中存在噪聲。專業(yè)的預測人員對新產(chǎn)品的可能銷量、失業(yè)率的可能增長、經(jīng)營不善的公司破產(chǎn)的可能性,以及其他各類問題,都會做出分歧非常大的預測。他們不僅意見不一,而且各自的預測也前后矛盾。例如,當同一批軟件開發(fā)人員被要求在不同的兩天中分別評估完成同一任務所需的時間時,他們前后兩次估計出的時間平均相差71%。
· 庇護權決策中存在噪聲。尋求庇護者能否被允許進入某個國家,就和買彩票差不多。一項研究發(fā)現(xiàn),在將庇護申請隨機指派給不同的法官后,一位法官批準了5%的申請,而另一位法官卻批準了88%的申請。該研究的標題說明了一切:《難民輪盤賭》(Refugee Roulette)。(在后文中,我們將會看到許多“輪盤賭”。)
· 人事決策中存在噪聲。不同面試官對相同應聘者的評估常常大相徑庭。類似地,對相同員工的績效評估,管理者之間也存在著很大差異。結果更多取決于評估者不同,而非被評估者的表現(xiàn)。
· 保釋決策中存在噪聲。被告是獲準保釋,還是移送監(jiān)獄候審,部分取決于審理該案件的法官。有些法官更為寬容,有些則更為嚴格。法官們對于哪些被告最可能逃逸或再犯的評估,也存在著顯著的差異。
· 司法鑒定科學中存在噪聲。在我們的認知范圍內(nèi),指紋鑒定是絕對可靠的。然而,在判定犯罪現(xiàn)場的指紋與犯罪嫌疑人的指紋是否匹配時,指紋鑒定師們的意見有時也會不一致。不僅不同專家之間會產(chǎn)生分歧,即使是相同的專家,在不同場合看到相同的指紋時,也可能做出不同的判斷。類似的差異性,在其他司法鑒定領域,甚至是DNA分析中也同樣存在。
· 專利權授予決策中存在噪聲。關于專利申請的一篇重要研究論文的作者強調(diào)了專利申請涉及的噪聲:“專利局是授予還是拒絕一項專利申請,很大程度上取決于該項專利申請被分配給了哪一位審查員。”從公平的角度來看,這種差異性顯然是有問題的。
上述所有存在噪聲的例子不過是冰山一角。無論你觀察哪個領域中人類的判斷情況,都有可能發(fā)現(xiàn)噪聲的身影。為了提高判斷品質(zhì),我們不僅需要克服決策中的偏差,還必須克服噪聲。
本書共分為6個部分。在第一部分中,我們探討了噪聲和偏差的區(qū)別,并展示了無論是在公共部門,還是在私人機構,噪聲都可能存在,其數(shù)量甚至達到大得驚人的地步。為了理解這個問題,我們從兩個領域的判斷著手,第一個領域涉及刑事判決(公共部門),第二個領域涉及保險(私人機構)。乍一看,這兩個領域差異巨大,但它們在噪聲方面卻有很多共同點。為了證明這一點,我們引入了“噪聲審查”(noise audit)的概念,目的是衡量一個組織中不同的專業(yè)人員對相同的事件在處理意見上存在多大分歧。
在第二部分中,我們研究了人類判斷的本質(zhì),并探索了如何衡量其準確性和錯誤數(shù)量。判斷容易受偏差和噪聲的影響。我們將介紹,這兩類錯誤在造成的影響方面具有驚人的一致性。“情境噪聲”是指同一個人或同一群體在不同場合中對同一事件做出判斷而產(chǎn)生的差異性。我們還發(fā)現(xiàn),群體討論中存在很多看似無關的因素,比如發(fā)言次序,它們卻導致了數(shù)量極其龐大的噪聲。
在第三部分中,我們將深入探討一種已得到廣泛研究的判斷類型——預測性判斷(predictive judgment)。我們探索了規(guī)則、公式和算法在人類做出預測時的關鍵優(yōu)勢:與大眾看法不同的是,與其說規(guī)則具有卓越的洞察力,還不如說規(guī)則是沒有噪聲的。我們討論了影響預測性判斷品質(zhì)的終極局限,即對未來的“客觀無知”(objective ignorance),以及這種客觀無知如何與噪聲一起對預測的品質(zhì)產(chǎn)生了影響。最后,我們會探討一個你肯定會問自己的問題:如果噪聲無處不在,那為什么我之前沒有注意到呢?
在第四部分中,我們轉向人類心理學領域。我們解釋了噪聲產(chǎn)生的根本原因。這些原因既包括由各種因素引起的不同個體之間的差異,也包括個性和認知風格的差異、對不同因素進行加權時思考角度的差異,以及人們在使用相同的量表時出現(xiàn)的理解差異。我們探究了為什么人們會對噪聲視而不見,以及他們?yōu)槭裁磳Σ豢赡茴A測到的事件常常并不感到意外。
第五部分探討了如何改進判斷并防止出錯這一實際問題。如果你主要對如何在實踐中減少噪聲感興趣,那么你可以跳過第三部分和第四部分,直接閱讀第五部分。我們調(diào)查了人們?yōu)榻档歪t(yī)學、商業(yè)、教育、政府治理和其他領域中的噪聲所做出的努力。我們介紹了利用“決策衛(wèi)生”(decision hygiene)減少噪聲的幾種做法。我們展示了來自不同領域的5個案例研究。在這些領域中,關于噪聲的記錄已經(jīng)有很多,人們?yōu)榱藴p少噪聲也做出了不懈的努力,并且取得了一定的成效。這些案例研究包括不太可靠的醫(yī)學診斷、績效評估、司法鑒定、招聘決策以及一般性預測。最后,我們介紹了中介評估法(mediating assessments protocol,MAP)——一種用于評估選項的通用方法,該方法融合了決策衛(wèi)生在實踐中的幾種關鍵做法,目的是讓噪聲更少,從而得到更可靠的判斷。
正常的噪聲水平應該是多少呢?第六部分會回答這一問題。正常的噪聲水平并不是零,這或許有點違反直覺。在一些領域中,噪聲不可能被完全消除;在另外一些領域中,消除噪聲的成本太高;還有一些領域中,消除噪聲的努力會損害重要的競爭價值。例如,消除噪聲的努力可能會影響士氣,會讓人覺得自己很像機器中的齒輪。當試圖用算法解決問題時,人們會提出各種各樣的反對意見,我們會對其中一些反對意見做出回應。盡管如此,當前的噪聲水平還是令人難以接受。我們敦促私人機構和公共組織進行噪聲審查,并以前所未有的嚴肅態(tài)度,付出更多的努力來盡力減少噪聲。這樣做可以減少很多組織中普遍存在的不公平現(xiàn)象,并降低諸多成本。
懷揣著這一愿景,我們在每一章的結尾都會提出一些簡短的建議。你可以采用這些建議,也可以根據(jù)你的實際情況加以調(diào)整,無論這些問題是涉及健康、安全、教育、金錢、就業(yè)、娛樂,還是其他方面。了解因噪聲而存在的問題,并試圖解決這些問題,是一項需要持續(xù)去做的工作,也是一項需要我們共同努力的工作。我們所有人都有機會為這項工作做出貢獻。這也正是我們寫這本書的初衷。