- 成為數據分析師:6步練就數據思維
- (美)托馬斯·達文波特
- 18330字
- 2019-01-24 16:42:14
雖然定量分析的種類頗多,但它們都有一些共同的關鍵特征和步驟。正如我們在引言中提到的,定量分析遵循下列3個階段和6個步驟:
構建問題
·識別問題
·回顧之前的發現
解決問題
·建模或選擇變量
·收集數據
·分析數據
傳達結果并基于結果采取行動
·傳達結果并采取行動
在本章和接下來的兩個章節中,我們將分別介紹每個階段和每個步驟,并列舉一些全面應用了這6個步驟的定量分析案例,不過對每個案例進行的分析都將著重于所在章節正在論述的特定分析階段。在這三個章節的末尾,我們將列舉兩個案例,通常情況下,這兩個案例分別來自商業領域和社會整體或個人的經驗。這些案例將用來說明如何在分析過程中展開這6個步驟,不過,分析還是會側重在一個特定的分析階段上。我們所說的3個階段和6個步驟并不是進行分析工作的唯一方法,例如,還有一種用于分析產品質量的相關變量的方法叫六西格瑪(Six Sigma),它能從每100萬個產品中測定出不少于3.4個的不合格產品,不過,我們認為大多數分析專家都是認可這種遵循3個階段和6個步驟的方法的,而且它的適用范圍足夠廣泛,包羅許多不同類型的商業問題和分析需求。
步驟1 從識別問題開始
一位定量分析師所做的工作始于認識一個問題或決策,然后才開始解決問題。在決策分析過程中,這個步驟叫作“構建問題”,它是一個良好的決策過程中最重要的一環。有很多原因會讓你邁出第一步,包括:
·純粹的好奇,這通常是基于常識或對事物的觀察;
·識別問題;
·工作相關的經驗;
·需要制定一個決策或需要采取行動;
·需要關注當前存在的問題,包括個人、企業或國家的問題;
·創建理論或者辨明現有的理論或以往的研究;
·采納項目計劃書或者決定可用的資金。

在這一步的時候要注意,分析還未到來。預感或直覺可能是決定繼續進行某種分析的推動力。這時候,證據的標準不高。當然,定量分析的最終目的是使用一些數據來檢驗預感。這就是分析性思維者和其他人的區別:分析性思維者用數據和分析來檢驗他們的預感。
在識別問題這個階段,最重要的事情是充分理解問題是什么以及這個問題為什么重要。這兩個問題的答案不僅會幫助我們弄清楚“通過解決問題能夠達到什么目的”,也有利于隨后的階段性工作的順利開展。
找到利益相關者
很明顯,這一步涉及的人主要是管理者和決策者,也就是企業的所有者或者組織問題的負責人。然而,即便是在這個階段,如果能得到對業務問題、決策過程和可能采用的定量分析方法了如指掌的定量分析師的幫助,管理者和決策者在組織問題的處理上就能實現事半功倍的效果。如果你不能找到一個如此全能地擁有上述所有知識的人,那你可能需要組建一個團隊,讓大家優勢互補,讓團隊整體擁有上述所有知識。
在這一步,有一個問題需要你認真思考,那就是誰是你打算進行的分析工作的利益相關者,以及他們對待你即將處理的問題的態度。你是否有能夠根據結果采取行動的利益相關者?他們是否對問題的存在有所懷疑?假如分析本身是完全站得住腳的,他們有可能被說服去做一些事情嗎?
人人都是分析師
誰才是利益相關者
如果你不能針對下面的大部分問題給出肯定的回答,那你的項目可能從一開始就會陷入困境:
·哪些高管和定量分析項目的成功息息相關?
·他們是否對存在的問題和問題的解決方案有一個大概的了解?
·他們是否有能力提供必要的資源?是否有能力推進定量分析項目成功所必須的業務變革?
·他們是否都支持在決策制定過程中使用分析和數據?
·你所推薦的分析案例和交流方式是否與他們常用的思維與決策方式相一致?
·你是否計劃向他們提供定期反饋和階段性成果報告?
分析師通常有這種習慣,即完全不考慮利益相關者就直接一頭扎進分析工作當中。對自己所掌握的分析技能越是自信,分析師就越不會考慮分析結果最終呈現給誰看以及決定根據分析結果采取行動的“決策者”是誰。
如果你覺得有必要為自己的分析項目考慮利益相關者,那么對利益相關者的管理就涉及以下一些常見的步驟:
·識別所有的利益相關者;
·記錄利益相關者的需求;
·評估和分析利益相關者的興趣或影響;
·管理利益相關者的預期;
·采取行動;
·審核身份和重復步驟。
利益相關者分析能夠識別主要的決策者,并確定最有可能用分析結果說服這些決策者的方法。如果決策者將分析結果束之高閣,不據此采取任何行動的話,那么即使是最嚴苛、最站得住腳的分析方法也會變得毫無用處。事實上,如果這是唯一能讓決策者信服的證據,那么從方法論的角度采用一個有爭議的分析方法進行分析工作也是有意義的。
例如,羅布·杜波夫(Rob Duboff)是一家名為HawkPartners的市場調研和市場戰略公司的管理者,在任何情況下,他都會對定量研究的價值充滿信心。不過據他了解,一些高管不懂得用定量分析方法去了解客戶的需求,他們反而更相信定性分析法,如焦點小組訪談法,即召集一小組客戶或潛在客戶,詢問他們對公司的產品和服務的看法,并觀察和記錄他們的反應。現在,杜波夫明白在方法論上,焦點小組訪談法的做法并不可信。眾所周知,在市場研究領域,客戶很可能會投你所好,說你想聽的話,因此事實就是,他們雖然告訴了你他們喜歡什么,但并不意味著他們會愿意為這些東西掏腰包。當然,如果由一個經驗豐富的主持人來引導焦點小組的討論,這個問題可能會有所緩解,但是焦點小組討論所得出的結論并不能推廣到更寬泛的領域。盡管如此,杜波夫認為,有研究總是聊勝于無,而且如果決策者愿意相信焦點小組的討論結果并根據結果采取行動,卻不愿意相信采用定量分析法分析出來的結果,那么我們不妨采用焦點小組訪談法。
同樣地,確定一個決策的利益相關者,有助于我們確定該決策的輸出和結果呈現形式。不同的人喜歡不同的結果呈現方式:有些人喜歡將結果以數字行列排序的方式呈現,有些人更喜歡以圖形的形式呈現,還有些人則喜歡用文字描述數字。在相對較早的階段,知曉這些不同的偏好是非常重要的。當然,如果分析結果不是給人類使用而是給計算機使用,而且越來越多的情況下決策是自動或半自動的,那么,考慮通過理想的視覺形式對分析結果進行呈現這個問題也就將變得毫無意義,因為對機器來說,你需要做的只是給它需要的數字。
特定的分析方法也能夠讓利益相關者參與整個分析過程。例如,在思科系統公司(Cisco Systems)有一個預測項目,證實通過使用統計方法可以大大提高預測的精準度(我們將在第6章末介紹這個案例的6個步驟)。雖然一些思科系統公司的管理者支持并看好這個項目,但還有一些管理者則懷疑更精準的預測是否可能。安妮·魯賓遜(Anne Robinson)負責這個項目,她在這個項目上采用了比較靈活的方法,每隔幾個星期就會分析出一些可交付成果,并將這些成果呈現給項目的利益相關者。這種更漸進的解決問題的方法有助于獲得利益相關者的認可。最后,即使是持懷疑態度的管理者也能明確地看到,相比以前的非分析方法,新的預測方法能夠對更多產品進行更精確、更快速的預測。
聚 焦
我們發現,在問題的識別階段聚焦于基于分析結果制定的特定決策是非常有利的。聚焦決策有很多理由。第一,聚焦決策讓所有的參與者認識到,制定決策就是定量分析的理由,定量分析不是一次毫無目的的實踐;第二,聚焦于將制定的決策能幫助識別關鍵的利益相關者,關鍵的利益相關者是基于分析結果進行決策的個人或團體;第三,如果沒有基于分析結果制定決策的展望,進行分析活動也許并不值得。
例如,邁克·湯普森(Mike Thompson)是分析服務公司第一分析(First Analytics)的負責人,他描述了他與某個客戶的團隊在問題識別階段進行的一次會面。這個客戶是一家連鎖餐廳,餐廳高管認為,分析應該主要聚焦于產品的利潤率。該餐廳高管希望,第一分析公司能夠幫助餐廳確定菜單上的每一道菜能夠產生多少利潤。湯普森也同意聚焦決策的看法,所以他詢問餐廳管理者,在分析得出每道菜的利潤率之后,他們會制定什么樣的決策。安靜了很長一段時間之后,一位高管提出,首要的決策是決定是否要將這道菜從菜單上撤掉。然而,另一位高管指出,在過去的20年里,連鎖餐廳還從未撤換過任何一道菜。在經過進一步的討論之后,客戶團隊一致認為,也許分析應該聚焦的是菜單上每道菜的定價而不是利潤率。“自從我們成立起,未曾調整過價格。”一位高管意識到。
你所說的是什么樣的故事
一旦你已經決定好制定什么樣的決策,就可以開始考慮如何為該決策提供答案或者見解了。我們將在第3章講述如何用數據來講故事,以及如何以最理想的方式將分析結果傳達給非分析人士。這時候,你應該開始考慮你手上的是一個什么樣的故事,以及如何講述它,盡管這個故事的大量細節會在隨后的分析過程中呈現出來。當然,故事就是數字如何向人們傳達分析結果。至少有6類與定量分析相關的故事。下面會對每類故事進行描述,且每類會列舉一兩個案例。
犯罪現場調查(CSI)故事|
一些定量分析就像是偵探小說式的電視節目:試圖用定量分析的方式來解決業務問題。突然出現一些經營問題,這時數據被用來確認這些問題的本質和找出解決方案。這種情形通常不需要深層次的統計分析,僅僅需要好的數據和報告方式就足夠了。在線交易經常會遇到這種情況,因為客戶的點擊率能夠為分析活動提供大量數據。
犯罪現場調查故事方法的一個專家級人物是喬伊·麥基鮑(Joe Megibow),他是在線旅游公司艾派迪集團(Expedia)美國運營副總裁兼總經理。麥基鮑以前是一位網絡分析專家,當然現在依然如此,不過他基于數據解決問題的方法已經為他帶來了各種各樣令人印象深刻的晉升。
艾派迪集團的許多調研都旨在了解在線銷售額減少的背后緣由。一個特別的犯罪現場調查故事與酒店付款交易收入下降有關。數據分析表明,在一個客戶選定了一家酒店、填寫完旅游和賬單信息,然后點擊“立即購買”按鈕之后,一定比例的銷售交易并未成功完成。麥基鮑團隊使用整個過程中網頁訪問者的訪問情況數據和服務器的記錄文件,調查出了交易失敗的原因。
顯然,處于客戶名字下方的“公司名稱”一欄是造成交易失敗的原因。一些客戶以為這個“公司名稱”指的是給他們持有信用卡的銀行的名字,而之后他們在賬單地址欄內也填寫了該銀行的地址。因此,信用卡處理器無法正常處理交易,導致交易的失敗。僅僅刪除“公司名稱”一欄就立即為艾派迪集團增加了1200萬美元的利潤。麥基鮑說艾派迪集團已經研究了很多個犯罪現場調查似的故事,發現它們總是能帶來巨大的經濟收益。
有的時候,犯罪現場調查故事的確涉及更深層次的定量分析和統計分析。麥基鮑團隊的一位分析師曾調查了客戶的哪些點擊會帶動線上銷售業績的增長。這位分析師使用了Cox回歸模型(Cox regression model),這種模型起初用于判斷在經過一段特定的時間之后,哪些病人會死亡、哪些病人會存活下來。他進行的這項分析表明,之前相對更簡單的模型完全無法正確體現哪些營銷方法能夠促成交易。麥基鮑評論說:在收入增長上,“我們還有很多認知盲區。”
尤里卡故事|
尤里卡故事與犯罪現場調查故事相似,不同的一點是,它是一種解決特定問題的有目的的方法,以此檢驗組織戰略或商業模型中進行的重大改變。久而久之,尤里卡故事通常會變成一個伴隨著更深層次分析的更長的故事。有時候,尤里卡故事也涉及其他分析性故事類型,只是因為分析結果對于需要它們的企業而言是如此重要。
例如,再次回到艾派迪集團的案例上,一個尤里卡故事涉及從在線酒店、航班和汽車租賃預訂中免去變更或取消費用。直到2009年,艾派迪集團和其競爭對手對客戶的變更或取消行為整整收取了高達30美元的費用,這個數額甚至超過了酒店方要求的違約金。不過,因為從艾派迪集團和其他在線預訂平臺預訂酒店明顯比直接從酒店預訂要便宜很多,所以客戶愿意支付這筆變更或取消費用。
然而,到2009年,這項費用的收取很顯然已經出現了弊端。艾派迪集團的酒店預訂費已經接近酒店本身的收費,因此客戶對艾派迪集團的主要訴求只剩下了便利,艾派迪集團收取變更和取消費用會導致客戶的不便利。分析師查看了客戶的滿意度,發現支付了變更或取消費用的客戶對網站的滿意度特別低。艾派迪集團授權其電話客戶服務中心的代表們免除客戶的變更或取消費用,因為收取這筆費用對客戶而言是致命的。在過去的三年里,免除這筆費用帶來了兩位數的營收增長。除非一場災難性的疫情從天而降,否則客戶很清楚他們能以這種方式把自己的錢收回來。
艾派迪集團的高管意識到市場已經發生了變化,但是變更和取消費用卻成了一項巨大的收入來源。他們想知道,如果取消這項費用,交易轉化率是否會提升。2009年4月,他們宣布當月進行暫時性的免除變更和取消費用。這次免除有點像一個瘋狂的科學家的實驗故事,我們會在下文詳細介紹。事實是,轉化率立即得到了巨大提升。高管們認為,他們有足夠的證據證明終止這項費用是合情合理的,且同行將會爭相效仿。
位于西雅圖一個小鎮上的Zillow公司是一家發布居民房地產信息的公司。Zillow也許算得上是最為定量分析高手所熟知的公司,究其原因就是其能夠對房屋價值進行估算的獨家算法“Zestimates”。但是,就像艾派迪集團一樣,Zillow公司的整個企業文化都是基于數據和分析,這一點也不奇怪,因為Zillow公司的創始人里奇·巴頓(Rich Barton)正是艾派迪集團的創始人。
一個與Zillow公司有關的尤里卡故事是,該公司通過與房地產代理商的關系來賺錢。2008年,Zillow公司開始和房地產代理商合作,在這之前它只聚焦于客戶身上。代理相關業務模式的一個方面是有償為代理商打廣告并向它們提供線索。Zillow公司向代理商收取線索費用,但在公司高管的眼里,每一條線索的價值卻不足值。克洛伊·哈福德(Chloe Harford)是Zillow公司的高管,負責產品管理和產品戰略。她著重于提出正確的模型,以增加線索的價值和優化線索的價格。
哈福德是火山學博士,專注于火山研究,她具備進行一些特別復雜的數學分析的能力。然而,她和同事起初只依賴于她所說的“餐巾紙數學”來探索其他能夠產生更多線索和對線索進行優定價的方法。2010年4月,Zillow公司打造了一種新的特色,即有償為代理商打廣告,之后迅速被競爭者模仿。這種方式與以前相比,創造出了更多的客戶聯系,并且允許客戶直接和代理商進行聯系。Zillow公司也向代理商介紹了一種復雜的算法,它能通過對轉化率的評估,計算出線索的經濟價值。競爭對手也會在某種程度上這樣做,但算法復雜度也許不及Zillow公司的高。線索和對線索的定價是如此重要,以至于哈福德和其同事經常使用下面描述的瘋狂科學家實驗方式來測試不同的線索和對線索的定價方式。總之,Zillow公司的尤里卡故事與它的商業模式和商業成績緊密聯系在一起。
瘋狂科學家故事|
在以科學為基礎的行業,如醫藥行業,科學實驗并不陌生。醫藥公司在實驗測試組成員身上試驗產品時,給對照組成員發放對照劑。醫藥公司會特別注意,確保被試隨機分配到測試組或對照組,這樣兩組的人員配備就不會有很大的區別,否則可能會影響藥效。這個實驗方法是一個強有力的分析工具,因為它常常能夠讓我們接近事實的本源,在測試組進行測試的事物以因果關系的方式促成結果的出現。
現如今,嚴格的實驗不再只是穿著白大褂的科學家的專屬,而是每一家大型企業都能使用的分析工具。有大量可行的軟件能引導管理者或分析師走完實驗流程。現在的公司能基于真實、科學有效的實驗做出重要決策。過去,任何進行隨機實驗(即我們在上文中提到的隨機分配群組成員)的嘗試都意味著使用或雇用一位統計學博士或“實驗設計”專家。現在,在軟件的幫助下,只要進行過定量培訓的MBA就可以監督整個過程,軟件可以幫助其確定所需群組的大小,測試組和對照組應選用場地的位置,以及任何來源于實驗的變化是否在統計上是顯著的。
瘋狂科學家故事特別適合像零售商(它們有大量的商店)或銀行(它們有大量的分支機構)一樣的組織。因為這類組織能夠很簡單地在一些地方進行實驗,然后把另外一些地方的商店、分支機構等當作對照組。同時,在網上進行實驗也很簡單,你只需給一部分客戶發送網頁的一個版本,給另一部分的客戶發送另一個版本,然后觀察結果是否會顯著不同即可。這在網絡分析領域被稱為A/B測試。
以下是瘋狂科學家故事的案例:
● 龍蝦供應商會在雄獅食品(Food Lion)超市賣掉更多龍蝦嗎?
如果消費者已經在這家店購買過龍蝦,而且相對更質優價廉,那么這個問題的答案顯然就是“會的”;但是如果是一家從一開始就無法吸引消費者在這里購買龍蝦的超市,那么這個問題的答案顯然就是“不會”。
● 位于一家凱馬特商場(Kmart)的西爾斯百貨超市的銷售額會比整個凱馬特商場的銷售額高嗎?
西爾斯控股公司(Sears Holdings)主席埃迪·蘭伯特(Eddie Lampert)非常熱衷于進行隨機測試,并且他已經對大量這樣的組合進行了測試。雖然我們并不知道這個特定問題的答案,但我們猜想,如果答案是“是的”,那么西爾斯控股公司肯定會開更多這樣的聯合商店,而事實上,我們并沒有看到更多的聯合商店。
● 紅龍蝦餐館(Red Lobster)的最佳銷售是由飯店的低成本或中成本改造導致的,還是高成本改造導致的?應該主要關注外部還是內部改造?
據紅龍蝦的高管稱,調查結果顯示,中成本的內部改造能帶來最佳的回報。外部改造能夠幫助引入大量的新客戶,但如果這些客戶看到內部并沒有一起改造,就不會成為回頭客。
調查故事|
調查是一種經典的定量分析方法。調查分析師觀察那些已經發生或正在發生的現象。分析師不會試圖控制結果,只是對結果進行觀察、編碼和分析。通常,調查者試圖理解在調查中觀察到的哪些特征或變量與其他的特征統計相關。最簡單的例子是,如果我們詢問特定產品的一批消費者關于他們的各種信息,包括性別、年齡等,如果我們同時還詢問他們喜歡哪種產品,那么我們就能判斷出男人是否比女人更喜歡某種產品,或者某種產品是否可能更受年輕人喜愛。
調查非常常見,且執行起來相當容易。然而,我們必須記住,基于調查基礎上的調查結果和故事會因為問題提出的方式以及問題隨時間的變動(可能不會改變)而出現相當大的變化。例如,美國人口普查局(US Census Bureau)已經對美國公民的種族問題調查了足足幾十年,在普查中發現,種族的種類一直在增加,到2010年時,美國公民中已經有15個種族,包括“其他種族”一項。對人口超過5000萬的美國拉美裔公民而言,“其他種族”是一個頗受歡迎的選擇,其中1800萬人選擇加入“其他種族”。如果種族存在諸多混淆,想象一下針對諸如政治派別、宗教、社會態度和性行為等敏感問題,調查人員要進行定性分析會存在多大的困難。
我們也必須記住,雖然調查分析中的兩個變量是相關的,但可能并不是因果相關。在第5章,我們將對這一問題進行更詳細的闡述,在這里我們只是指出來,有可能存在你沒有注意到的其他變量才是推動你所關注的現象產生的原因。
調查故事常常會包括人們的信仰和態度,并不針對人們自身。例如,以第二次世界大戰期間進行的飛機調查為例,這個案例曾出現在一本經典的統計學教程中:
在第二次世界大戰期間,軍隊需要讓飛機盡可能多地處于運行狀態,因此人們決定看看是否能在無風險的情況下減少極為耗時的引擎徹底檢修。出乎所有人的意料,通過對毀壞的飛機進行的一次回顧性調查發現,在剛剛徹底檢修之后,由于引擎問題引發的飛機毀壞是最頻發的,而事實上,離徹底檢修的時間越久,飛機毀壞的可能性越低。這個結果導致徹底檢修間隔時間有了相當大的延長,這個結果還促使了檢修方式的重大改變,徹底保證飛機上所有的螺絲、螺帽等被牢固地擰緊。
如果你計劃去執行或分析一項調查計劃,請確保已經對要調查的問題或者變量的意義進行過深思熟慮。一個關于人、情況或行為屬性的任何可衡量的變量都有兩個或多個值。性別、測試范圍、室內溫度、愛、幸福感和團隊凝聚力就是關于變量的很好的例子。
同樣重要的是,請確保調查樣本能夠代表你想要研究的人群。你怎樣執行調查才能夠影響樣本。例如,如果你想調查年輕人群的態度或行為,就不要雇用一家只通過固定電話來接觸樣本的調查公司。使用固定電話進行調查是一種非常具有代表性的做法,但我們都知道,許多年輕人沒有且根本沒打算安一臺固定電話。因此,僅通過固定電話來調查的樣本將不具有代表性。
預測故事|
預測故事是關于預測將來會發生什么的分析方式。因為獲得有關未來的理想數據非常困難,所以采用以往數據和理解導致過去的事情發生的原因對定量分析而言具有非常直接的意義。這通常涉及預測分析或預測建模。
世間存在許多分析師能夠構建的預測故事。以下是其中一些可能的情況,請注意它們有多特殊:
·提供回復:哪些消費者會在兩個工作日內回復一封免運費的電子郵件,并購買50美元或價格更高的商品?
·交叉銷售/追加銷售:通過郵件推送,哪一位賬戶余額超過2000美元的支票賬戶消費者會在1個月內回復郵件,并購買利率為1.5%的1年期定期存款服務?
·員工流失率:哪些在職超過6個月卻沒有簽署401 K計劃的員工會在接下來的3個月內辭職?
有很多其他預測分析的可能性。在經營活動中,預測的普遍方法是判斷客戶最有可能接受什么樣的推薦。“下一個最好推薦”的分析越來越自動化,在客戶看到推薦之前不需要人工介入,而客戶能得到數百甚至數千個不同的推薦。
例如,微軟公司擁有一種不可思議的能力,即為它的搜索引擎“必應”(Bing,使用必應是免費的,所以微軟只需要設法讓你去使用它)進行動態“推薦”。這個“推薦”會誘導你去使用必應,在你的瀏覽器上安裝一個必應搜索條,使用一個特別的必應產品等,諸如此類。推薦的定制化服務基于各種各樣的因素,包括你的位置、年齡、性別和最近的網絡活動,這些因素能通過你的緩存或其他來源進行判斷。如果你注冊了Microsoft Passport程序,微軟將獲得關于你的更多信息,因此微軟能夠為你定制更加高效的推薦。當你在收件箱點擊一個推薦時,得益于微軟使用的Infor Epiphany Interaction Advisor軟件,微軟能立馬向你發送一封定向電子郵件,僅需花費200毫秒。微軟表示,這種定向推薦郵件的方式在提升轉化率上效果極佳。
通常情況下,預測故事有點像釣魚。我們不能準確地知道什么因素能夠幫助我們預測,所以便盡量實驗更多因素來觀察到底哪些因素能夠起作用。有時候,結果讓人意想不到。例如,在我們剛剛描述的微軟必應推薦中,你擁有的Microsoft Messenger好友數是用來預測你是否會使用必應搜索的一個好工具。
谷歌想預測什么樣的員工品質預示著更高的績效。一些分析顯示,谷歌起初使用的大學成績和面試評級都是非常糟糕的預測績效的因素。既然谷歌不能確定哪些因素是重要的,于是要求員工做了一項包含300道題的調查。正如谷歌人力運營部主管拉斯洛·博克(Laszlo Bock)所指出的:“我們要撒下一張很寬的網。沿著這邊的過道走,撞到狗是很正常的,也許養狗的人身上有一些特質能幫助我們進行預測。”
雖然把寵物帶到工作場所并不能為預測工作奉獻力量,但谷歌還是發現了一些意想不到的預測因子。例如,一個求職者是否創造了一項世界或國家紀錄,或者創立了一家非營利性組織或俱樂部,這些都與高績效密切相關。現在,谷歌在它的在線求職面試中,就會詢問與經驗相關的這類問題。
當然,如果預測因素根本沒有任何意義,那么你最好重新檢查你的數據和分析方法。但是事實上,在很多時候對一些數據進行考量的效果能夠勝過一個未來主義者的預測。在這里需要提醒你的是,切記預測故事使用來自過去的數據預測未來。如果在你分析完之后,世界已經悄然發生變化,那么基于過去的數據進行的預測則可能會變得不再有效。
“情況是這樣的”的故事|
也許最常見的是僅僅使用數據說明發生了什么的故事。這種故事提供事實,例如,什么時候、在什么地點有多少產品被售出;上個季度財務完成了哪些目標;上一年我們雇用的員工死亡的有多少。因為這種故事是導向報告型的故事,常常不會使用復雜的數學計算,所以可能看起來很容易講述。然而,在現今的組織中,數據的大量增加導致了基于數據的報告大幅度增加,因此,有時候你很難吸引到預期觀眾對你創作或發布的報告的注意。
這類故事非常適合信息的視覺展示。簡單地說,如果你用數字行列來進行報告,很可能難以吸引到你想要的關注。現在,我們當中的許多人甚至厭倦了彩色圖表的報告方式,雖然如此,但大多數人還是覺得彩色圖表形式起碼比一整頁一整頁的數字更值得一看。既然第3章是關于交流結果的,那么我們將在第3章講述讓這種類型的報告更有趣和更能吸引眼球的方法。
問題的范圍|
根據定義,一個數據驅動的故事和其背后的定量分析在范圍上多少有一點狹隘,只是因為它要求收集數據并將數據應用到一個可檢驗的假設身上。如果問題很寬泛,數據收集就會變得非常困難。然而,在這一步,不要過早地限制問題或決策的范圍是非常重要的。剛開始時,你應該開放性地思考問題,而且你的頭腦中應該有一些可供選擇的方向。例如,如果一家企業意識到在某個特定業務部門或業務區域存在績效問題,那么企業應該開放性地設想各種各樣的原因,從客戶不滿意到運營問題,再到產品或服務問題。
在本章末的全視線光學公司(Transitions Optical)的案例中,問題的識別和構建步驟是由一種模糊的感覺驅動的,即該公司認為,由于營銷費用太高,決策構建被擴展到涉及整個光學市場營銷費用水平和媒體使用的優化上。
我們已經把定量分析中的第一個步驟定義為問題識別,但它也能被定義為機會識別。約瑟夫·賈格爾(Joseph Jagger)是一位英國工程師,他發現,人們有機會在蒙特卡羅(Monte Carlo)大賭場贏得莊家的全部賭本。賈格爾在約克郡(Yorkshire)的棉花紡織業里獲得了他的機械學實踐經驗。然后,他將機械學實踐經驗拓展到了賭博輪盤的表現上,并猜測賭博輪盤的結果并非絕對的隨機順序,而是機械的不平衡可能導致特定結果的偏差。如果他能在輪盤上發現能夠為己所用的缺陷呢?于是,他來到摩納哥檢驗自己的觀點。
人人都是分析師
可檢驗的假設
·按照客戶上一年從我們這里購買的產品類型,給他/她發送電子郵件進行推薦是最理想的。客戶也最有可能對這樣的推薦做出積極的回應。
·對一名處于知識型工作崗位上的員工會達到的績效評級水平而言,受教育程度是一個良好的預測因素。
·相比在其他時期標低售價,在假期來臨前的一個星期內將售價標低10%的效果差很多。
·為提升每周的銷量,在零售店內對我們的產品進行貨架兩端展示是最有效的陳設方法。
·就客戶購買的產品而言,我們的客戶能被清晰地劃分為4類細分人群。
·與經濟蕭條時期相比,在普通時期,我們對一類主要消費品進行提價更容易對需求造成影響。
·針對已經集中了存貨管理設備的業務部門來說,它們一般會在生產過程中維持更短的平均存貨期。
在法國/歐洲的賭博輪盤上有37位數字:1~36,還有0。每當輪盤旋轉一次,每個數字在理論上出現的可能性都是1/37。因此,在旋轉很多次后,每一個組合數的比例都應該大致等于1/37。賈格爾推斷,如果輪盤存在機械不平衡的情況,那么這種不平衡將導致特定的數字出現的概率大大高于1/37。
帶著這些想法,在傳奇的蒙特卡洛美術賭場(Beaux-Arts Casino),賈格爾雇用了6個人觀察6個輪盤,每個人觀察的輪盤各不相同,而且每一個人都用特定的指令來記錄輪盤每一次旋轉所產生的記錄。賈格爾在分析記錄結果時發現,其中的5個輪盤就像大家常想的一樣產生的是隨機結果。然而,在第6個輪盤上,他發現了9個特殊數字(7、8、9、19、22、28、29)出現的比例遠遠高于能夠解釋的隨機出現的比例。因此,賈格爾得出結論,第6個輪盤存在偏差,即該輪盤不是完美平衡的。于是,在1875年7月7日,他進行了第一次賭博,且迅速贏得了一筆數額相當可觀的金錢,也就是14000法郎,這差不多相當于2012年的60倍,或者如果考慮到通貨膨脹的話,這差不多是130多萬美元。在知道賈格爾的賭博策略并最終宣布靠這種策略賭贏的情況無效之前,賈格爾已經贏得了一大筆錢,比600萬美元還要多。這的確是一個機會!
關鍵是,知道你想要什么
雖然在問題識別階段的早期,更廣泛的思考是非常重要的,但到了末期,你將有必要對問題形成清晰的判斷,對關鍵項目或你想要研究的變量有明確的定義。原因是:在定量研究中,對事物的不同定義方法會對結果成生很大的影響。例如,假設你是電視臺的高管,對研究觀眾在觀看哪個頻道特別感興趣,有兩位分析顧問帶著各自的問題解決方案找到了你。因為好玩,你決定同時雇用他們兩個,以此來比較他倆的分析結果。
其中一位顧問建議,在為期一星期的時間內使用線上調查的方式或者使用紙質調查的方式,讓觀眾記錄下他們每天觀看的頻道以及觀看的內容;另一位顧問建議,讓受訪者對他們在過去幾個月內經常觀看的電視頻道進行排序。兩個方案都有精心設計的調查樣本,而且能代表目標群體。
雖然這兩位顧問都在解決非常相似的問題,但很可能會得到不同的結果。那個建議觀眾記錄每天觀看的頻道和內容的顧問很可能獲得更加精確的結果,但是額外的記錄負擔很可能意味著調查樣本的觀眾參與率會降低。尼爾森媒體研究(Nielsen Media Research)是一家不間斷地對電視頻道和節目進行監視的公司,它的記錄是自動進行的,結果發現在某個時間段內,觀眾觀看某頻道或節目的退出率達到50%。另外,這位顧問面臨的另一個問題是,在這項調查進行的某個特定星期里,觀眾的觀看模式可能會受到特定季節或這個星期各電視臺所提供的特定節目的過度影響。
另一位顧問進行的調查研究很可能沒有那么精確,但因為它覆蓋了更長的時期,可能不會受到季節性因素的影響。最重要的是,兩項調查的結果將很可能因為差距甚遠而難以折中。這就是為什么說,在問題識別階段就對你所要做的研究形成一個清晰的認識是非常重要的。
步驟2 回顧之前的發現
一旦問題被識別,就應該對所有與之相關的之前的發現進行調查。回顧之前的發現仍然屬于分析(構建問題)的第一階段中的一個步驟,因為調查之前的發現能幫助分析師和決策者思考他們想解決的問題到目前為止是如何被構建的,以及這個問題可能以何種不同的方式被概念化。通常情況下,分析師會在回顧之前的發現時發現一些事情,這些事情的發現將促使分析師對問題識別階段形成的認識進行大幅度的修改。反過來,這又將帶來不同類型的發現。

在這個步驟,我們基本上會問:“以前是否講過相似的故事?”如果講過,我們能從以前講過的故事中為此次分析獲得一些看法。回顧之前的發現能帶來以下啟發:
·我們能講述什么樣的故事?這個故事是否與預測、報告、實驗、調查相關?
·我們更想找到何種類型的數據?
·以前的變量是如何定義的?
·我們更可能執行哪種分析?
·我們如何用一種趣味橫生、可能獲得結果且與過去不一樣的方式來講故事?
定量分析和更寬泛的科學方法的一個關鍵特征是它們利用之前的研究和發現。例如,通過在書本、報告和文章中搜索出現過的與你想解決的問題相關的知識,對于理解問題的本質是非常重要的,甚至還有助于你識別相關變量和發現已識別的變量間的任何聯系。
在任何給定的定量分析里,對所有之前的發現進行完整的回顧是必不可少的。你不能在分析中無中生有。也許你只有在對之前的發現進行了全面回顧之后,才真正開始進入解決問題的階段。記住一件事:你的問題不像你想的那樣特殊,并且你正打算做的工作,有許多前人可能已經做過了。不要白費力氣做無謂的重復性勞動,你所需要做的是搜索、搜索、再搜索。通過使用一個像谷歌這樣的搜索引擎,你能輕易地收集到與你的問題相關的盡可能多的材料。只需通過整理和評估材料,你就能識別出解決問題的潛在模型或方法。
回顧之前的發現做得很成功的一個案例發生在第二次世界大戰期間。德軍生產出了一款叫作V-2的威力巨大的新型火箭彈,以威脅倫敦市民的安全。在接下來的幾個月里,至少有3172枚V-2火箭彈遍布在各個同盟國國家中,其中的1358枚投向倫敦地面,導致了約7250名軍人和平民的死亡。
在空襲倫敦期間,許多觀察家堅稱炸彈打到的各點是集群式分布的。英國人很想知道,德國人是有目標的炸彈攻擊還是只是隨機攻擊。英國人認為,如果德國人只是隨機攻擊目標,那么部署在遍布全國的各種安全裝備能夠很好地保護國家,但如果德國人能夠進行有目標的轟炸,那么英國人面臨的是一個更強有力的對手。因此,在全國范圍內部署的安全裝備可能還不足以保護國家的安全。英國政府雇用了統計學家克拉克(R.D.Clarke)來解決這個問題。克拉克基于他對之前的發現或已存在的知識的回顧,實施了一個簡單的統計分析。
克拉克意識到,泊松分布(Poisson distribution)可以用于分析這些炸彈的分布。如果事情以一個已知的平均概率發生,泊松分布就會解釋這些事情發生在某段固定時期、固定區域或固定體積內的可能性。為了具體了解泊松分布,我們必須知道的一件事情就是事件發生的平均概率。如果炸彈是隨機落下的,那么轟炸任何特定小區域的炸彈的數量會遵循泊松分布。例如,如果炸彈的平均轟炸數是每個區域1枚炸彈,那么只需把這些數字填寫到泊松公式里,我們就可以輕松又精準地計算出沒有炸彈轟炸的可能性,如1枚炸彈轟炸的可能性、2枚炸彈轟炸的可能性、3枚炸彈轟炸的可能性、4枚炸彈轟炸的可能性和更多枚炸彈轟炸的可能性。
為了測算某一特定小區域可能受到多少枚炸彈的轟炸,克拉克把南倫敦劃分為576個方塊,每個方塊為0.25平方公里大小,然后對飛過的炸彈按照0、1、2、3等進行計數。如果轟炸完全是隨機的,那么每一個方塊被0、1、2、3等炸彈轟炸的可能性將符合泊松分布。事實上,結果數據和泊松分布匹配得非常好,因此,它不支持集群分布的假設。克拉克的結論讓英國人松了一口氣。讓人感到幸運的是,在V-2火箭彈造成更大破壞之前,德國在1945年投降了。盡管德國沒能讓導彈有效制導,但是火箭卻成了美國太空計劃的技術基礎。
正如克拉克意識到的,落下的導彈的問題能夠用泊松分布來描述時的所作所為一樣,你在回顧之前的發現之后,可以回過頭來重新審視問題識別的步驟。你可能會發現需要修改故事、問題范圍、決策甚至是決策的利益相關者。如果你已經對這些進行了調整,或者如果你仍然滿意起初對問題的定義,就可以認為你的問題已經構建好,然后繼續往下走,采用定量分析方法來解決實際問題。
人人都是分析師
回顧之前的發現的一些方法
·對與你的分析相關的關鍵術語做一次網上搜索。
·查閱統計學教程,查找與你正打算進行的分析類似的分析。
·與你們公司的分析師溝通,了解他們是否已經做過類似的事情。
·如果你們公司有一個知識管理系統,就在系統里查一下與你的分析相關的知識。
·與來自其他公司的分析師談論這個問題,但注意不要與來自競爭對手公司的分析師談論。
·參加一個關于分析的會議或者至少收看會議直播,了解是否有其他人在講與你的分析相關的話題。
構建問題
雖然我們已經把解決問題的分析過程以3個階段6個步驟的線性方式進行了展示,但如果這個過程不具迭代性,它將毫無用處。分析過程中的每一步都對問題進行了新的闡述,對新掌握的知識進行思考以了解它如何讓人們對先前的步驟有更深刻的認識,這往往是一個很好的想法。雖然你不能永遠回顧走過的每一步,但花費一點時間回顧一下之前的發現以獲得對問題構建的啟示還是值得的。
人人都是分析師
接下來,問自己10個問題
你已經很好地構建問題了嗎?如果是,那么你應該能明確地回答以下所有的或者起碼是大多數問題:
·你是否已經定義了一個清晰的問題或機會來解決企業里非常重要的問題?
·你是否已經考慮了多種選擇方式來解決問題?
·你是否已經識別出這個問題的利益相關者,且針對這個問題你已經和這些利益相關者進行了廣泛的交流?
·你是否對你計劃解決的問題和利益相關者產生共鳴,且對他們會使用問題的結果來制定決策擁有信心?
·一旦問題被解決,將基于結果制定的決策的內容以及決策制定者是誰,你清楚嗎?
·剛開始時,你對問題是否有一個較廣泛的定義,到后來縮小到一個需要解決、需要應用數據以及明確可能出現的結果的非常確切的問題?
·在解決這個問題時,你能否描述出你想講述的分析故事的類型?
·有人能夠幫助你完成這個特定類型的分析故事嗎?
·你已經在你的組織內部或外部進行系統的查閱,以了解是否存在與你想解決的問題相關的之前的發現或者經驗了嗎?
·你是否基于回顧之前的發現所了解到的內容,對問題的定義進行了修正?
舉一個很好的例子,拉瑪·萊瑪克里斯南是一個零售分析專家,他現在是一家初創公司CQuotient的CEO,在他發表的博客中描述了一種適合構建問題的情形:
以直銷中出現的“選定目標客戶”的問題為例。選定目標客戶就是決定應該給哪些客戶發送郵件,因為給每位客戶發郵件耗時耗力,所以只用給選定的目標客戶發送郵件就可以了。這是一個被無數研究人員和從業人員研究過的古老問題。最常用的解決辦法如下:
·發送測試郵件給樣本客戶。
·使用測試郵件的結果來建立一個“反應模型”,這個模型能夠預測每一位客戶對回復郵件的傾向,并將這個傾向作為客戶特征、過去的歷史等的一個函數。
·使用這個模型給數據庫中的每一位客戶打分,然后給高分客戶發送郵件。
這個模型看上去很合理,而且也正是企業所需的,但事實情況并非如此。
這個模型的名字叫作“回復模型”,從這個名字可以看出,企業通過發送郵件來引發客戶回復郵件。事實上,客戶可能已經到商店購買了企業想通過郵件來推薦的商品(我在這里針對的是那種銷售渠道多樣化的零售商,而不是非專營目錄零售商。因為對于專營目錄零售商來說,沒有目錄,客戶也許根本就無法實現商品購買,因此專營目錄零售商也許也不適用“回復”這個詞)。
這些回復模型實際上所做的是要識別那些可能購買物品的客戶,而不是識別那些可能因為收到郵件而去購買物品的客戶。那么,問題就出在管理層真正想確定的也許正是后者。對那些要么一定要去購物,要么不管給他們發送什么都不會購物的客戶來說,發送郵件就是浪費金錢,同時也潛在地消耗了客戶的好感。企業真正想要識別的是那些如果給他們發送郵件就會來購物,而不發送郵件就不會來購物的客戶。
這個確定目標客戶的問題構建和解決這個問題的方法都是相對較新的。確定目標客戶的新方法有很多:提升模型、凈提升模型(相對于傳統的回復模型),關于這個新模型的學術研究是非常少的。然而,對于許多零售商而言,與舊的方法相比,這是一個構建和確定目標客戶的更中肯且更有用的方式。
在這個案例中,對之前的發現進行全面的回顧也許會揭示在提升模型、凈提升模型上的最新研究,而這可能為問題的構建帶來機遇。萊瑪克里斯南建議在這些情況下使用相對更新的建模方法:“既然新問題在定義上沒有獲得足夠的關注,簡單的算法可能會迅速產生效果。”
我們將通過兩個案例來結束對本章的構建問題的相關討論,其中一個案例來自商業領域,另一個來自法律領域,在這兩個案例中構建問題的階段對結果至關重要。不過,其中一個是正確的構建案例,另一個是錯誤的建構案例。雖然構建問題階段之外需采用的分析步驟你還未曾了解過,但我們相信你在這些案例中能夠理解它們。
分析性思維實例
營銷中哪一分錢花得最值得
商業領域存在的一個最普遍的分析性問題是,確定一個特定行為的花費應該是多少。另外,確定營銷費用也是一項特別困難的決策。百貨商店之父約翰·沃納梅克(John Wanamaker)以及在他之前的一些歐洲零售商,因為一句名言而赫赫有名:“我知道花費在廣告上的投入有一半是無用的,但問題是我不知道是哪一半。”然而,現在企業能使用定量分析來找出哪些營銷費用是有用的,哪些是無用的,以及哪部分是最有效的。這通常被稱為營銷組合分析,這種分析越來越受到銷售型公司的歡迎。
識別與構建問題。全視線光學公司為眼鏡提供變色鏡片,不過在營銷支出方面受到了來自母公司的壓力(全視線光學公司由PPG和法國依視路公司[Essilor]共同所有),特別是PPG不是從事客戶營銷的公司,所以這家母公司非常懷疑在廣告和促銷上的花費是否值得。母公司還針對特定的廣告和營銷活動是否有效地提出了具體的質疑。雖然整體給人的感覺就是,全視線光學公司的營銷支出過多,但沒有實際的數據來回答營銷支出的最佳水平是什么這個問題。全視線光學公司的高管決定以讓投入的金錢最大化地帶動銷售增長的方式,來構建一個優化營銷支出和營銷方法的問題。據當時的市場營銷主管格雷迪·倫斯基(Grady Lenski)說:“當時在進行營銷決策時,我們嚴重依賴于感覺,因此我們需要更多理智和科學的概念。”
回顧之前的發現。在這個問題上不存在已有的發現。雖然全視線光學公司擁有能夠讓對這個問題的分析成為可能的客戶數據,但這些客戶數據分散在公司的各個部門。倫斯基和一些同事意識到,雖然分析不同營銷方式的有效性是可能的,但他們并不清楚不同營銷方式的細節情況。
建模(選擇變量)。營銷組合優化模型涉及營銷反應、營銷成本和產品利潤率等變量,它可以用來優化營銷開支,所以越來越受到大企業的青睞。營銷組合優化模型使用線性的和非線性的程序方法找出能最大化收入、利潤率或者兩者的周度或月度廣告、促銷和定價水平,也能判斷出哪些特定的廣告媒體對于最大化收入、利潤率或者兩者是最有效的;而且,這一模型通常還包含可能影響客戶開支和購買行為的一系列“控制”變量,比如天氣和宏觀經濟數據。
收集數據。對全視線光學公司而言,這是分析工作最難的地方之一,因為公司是和中間商合作(比如光學實驗室),所以在過去與終端客戶接觸甚少。因此,它無法精確地測算客戶是否看到了廣告或者廣告是否確實帶來了銷售額的提升。全視線光學公司開始了多年的努力,從其渠道合作伙伴(有些是其母公司的競爭對手)處收集終端客戶數據。因為倫斯基曾是零售渠道部的主管,所以他相對輕松地收集到了這些信息。全視線光學公司收集進來的客戶數據有30種不同的格式,公司最終把它們放入了一個整合的數據庫中以供分析。倫斯基認為,市場營銷部門也需要說服全視線光學公司的其他部門來提供數據。在沒有數據庫的情況下,全視線光學公司進行了第一次分析。
分析數據。全視線光學公司雇用了一位外部顧問來進行數據分析,因為公司內部沒有熟悉營銷組合優化模型的人。這次分析最初花費了幾個月的時間,因為必須收集數據,而且模型需要排除對任何營銷策略都會有反應的大量其他解釋性因素,包括天氣、競爭對手的市場營銷等。由于模型已經成型和日漸完善,最終的確立只需幾天就能完成。
傳達結果并采取行動。全視線光學公司認為,解釋和展示結果非常重要,需要公司內部具備這個能力,于是它雇用了內部員工來完成它。內部專家從外部顧問處獲取模型,然后和高管討論并判斷模型帶來的啟發,接著將這些啟發與他們自身對市場的直覺進行整合。總體來說,這些結果導致全視線光學公司在營銷上的花費被進一步拔高,特別是在電視廣告上。
證人與柯林斯夫婦案
證人和柯林斯夫婦案是加利福尼亞州的陪審團以在法庭上錯誤地使用數學和概率論而臭名昭著的典型案例,正是錯誤地構建問題導致了糟糕的結果。
陪審團認定被告馬爾科姆·柯林斯(Malcolm Collins)和他的妻子珍妮特·柯林斯(Janet Collins)犯二度搶劫罪。丈夫對判決提出上訴,最終加州最高法院推翻了有罪判決,批評了統計推理的使用并禁止陪審團使用該決策方式。我們將在6步框架內檢驗這個案例。
識別問題。事發前,朱厄妮塔·布魯克斯女士(Juanita Brooks)在圣佩德羅(San Pedro)沿著一條小路走著,她正要去購物。突然,她被一個從未見過的人推倒在地,被撞得頭腦發暈,還有一些疼痛。緊接著,布魯克斯女士發現她的錢包不見了,里面裝有35~40美元。這個搶劫案的一名證人說,行兇者是一名留著絡腮胡的黑人男性和一名扎著馬尾辮的金發白人女性。他們駕駛著一輛黃色小轎車逃跑了。在為期7天的審訊中,原告在確定犯罪行兇者的身份上存在困難。受害人無法證實珍妮特·柯林斯的身份,且沒有看見行兇者,而由證人提供的身份證明又不夠充分。也許是,原告也想不顧一切地贏得訴訟,所以決心幫助陪審團確定被控的兩人與證人的描述相匹配的概率。
回顧之前的發現。大家都認可的是,法院通常能夠分清楚法律學和數學之間沒有什么內在的不相容,且對于將數學作為一個發現法律事實的方法并沒什么異議。在一些犯罪案例中,原告就使用了數學概率作為證據,而這就是上述所說的法律也認可數學作為發現法律事實的方法之一的佐證。
建模(選擇變量)。由原告建議的模型是被控的兩人與證人的描述相匹配的概率。
收集(測量)數據。原告打電話叫來一位加州州立大學的數學講師作證。作為證人的證詞,這位數學講師表示陪審團可以估算出如下罪犯和罪行的特征的匹配概率:
有胡須的黑人 1/10
有小胡子的男性 1/4
扎馬尾辮的白人女性 1/10
金色頭發的白人女性 1/3
黃色機動車 1/10
跨種族夫婦在車內 1/10
分析數據。數學講師表示,當事件獨立發生時,它們同時發生的概率為它們各自概率的乘積。
P(A)=被控兩人匹配證人描述的概率
=1/10 * 1/4 * 1/10 * 1/3 * 1/10 * 1/10000
=1/120000000,即1/1200萬。
傳達結果并采取行動。原告得出的概率是任何一對有兩名被告這樣特征的夫婦只有1/1200萬的可能性。相應地,通過這個理論,被告有且只有1/1200萬的可能性是無辜的。陪審團據此進行了有罪判決。
柯林斯夫婦對該判決提出上訴請求。加州最高法院認為,毫無疑問,陪審團成員被數學實證過度影響,沒能評估數學實證的關聯性和價值。因此,法院撤銷了定罪,批評了統計推理的使用并禁止陪審團使用該決策方式。最高法院指出,數學家的證據里顯示了兩個非常重要的缺陷。第一,無論這個方法表現得多有效,原告都不能提供任何證據,因此無論如何這個方法并不能提供任何證據;第二,原告的方法中還有一個明顯的缺陷:被告作為證據的6個因素的統計學獨立性不能得到充分證明,例如,留著胡須的男性通常會留小胡子。
更重要的是,原告錯誤地構建了這個案件和證據。即便原告的結論在算數上是精確的,但并不能由此認定柯林斯夫婦是罪犯。這種統計應用在一個決定性的問題上完全沒有指導意義:雖然在地球上顯然沒有幾對這樣的夫婦能被人們遇上,但如果遇上的話,就能證明他們就是罪犯嗎?
這個案件中的相關變量不是被控告的夫婦與證人的描述的匹配概率,而是存在其他夫婦與證人的描述相匹配的概率,因為被控告的夫婦已經與證人的描述相匹配了。根據洛杉磯地區夫婦準確的數量,至少還有其他一對夫婦與描述相匹配的概率可能高達40%。因此,原告的計算確定柯林斯夫婦就是證人所描述的這對夫婦,這遠超出了合理的懷疑范圍。這意味著很可能這個地區包括不止一對柯林斯這樣的夫婦,也有可能證人在搶劫案中看到的是另一對夫婦而不是柯林斯夫婦。
在對包括證據在內的整個案件的情況進行復審之后,最高法院判定針對被告的判決必須撤銷。
糟糕的問題構建無疑會導致糟糕的決策。