- 大數據:規劃、實施、運維
- 謝朝陽
- 7184字
- 2019-12-04 19:12:37
1.4 大數據的理解誤區
大數據預測到底準不準。我們先來看一個由數據科學家Sebastian Wernicke做的題為“How to use data to make a hit TV show”的演講,該演講也可以從TED演講集中看到,其大意是:
Roy Price是亞馬遜旗下一家電視節目制作公司的一位資深決策者。對于公司而言,Roy的工作責任重大,他負責幫亞馬遜挑選即將制作的原創節目。當然,這個領域的競爭非常激烈,其他公司已經有那么多的電視節目,Roy不能只是隨便亂挑一個節目,他必須找出真正會走紅的,換句話說,他挑選的節目必須落在如圖1-5所示曲線的峰值右側。

圖1-5 IMDB的電視節目評分曲線
這條曲線是IMDB(網絡電影資料庫)里2500個電視節目的客戶評分曲線圖,評分從1到10分布在橫軸上,縱軸表明有多少節目達到某個評分。從圖1-5上看,如果一個節目達到9分或更高,這個節目就是贏家,因為它屬于那2%的頂尖節目。例如,像“絕命毒師”、“權力的游戲”等,這些是會讓人上癮的節目。而在曲線的左邊,則是類似兒童選秀類的節目。Roy并不擔心他會選到一個落在曲線最左邊的節目,很顯然任何人都具備基本的判斷力來避免選擇一個低分的節目。他真正擔心的是中間占多數的這些節目,這些被歸為一般水準的電視節目。這些節目不算好,但也不是很爛,它們不會真正讓觀眾感興趣。所以Roy要確保他要做的節目是落在最右端的區域里。
因此,Roy壓力就來了,當然,這也是亞馬遜第一次想要做這類事情,所以Roy不想只是碰運氣,他想要成功打造一部劇。他要一個萬無一失的選擇。于是,他舉辦了一個競賽。Roy的團隊帶來了很多關于電視節目的想法,通過一個評估,他們挑了8個候選的電視節目,然后他們為每一個節目制作了第一集,再把它們放到網上,讓每個人都能免費觀看。幾百萬人看了這些劇集,而這些人不知道的是,當他們在觀看節目的時候,實際上他們也正被Roy及他的團隊觀察著。團隊記錄了哪些人按了播放,哪些人按了暫停,哪些部分他們跳過了,哪些部分他們又重看了一遍。他們收集了幾百萬人的數據,因為他們想要用這些數據來決定做什么樣的節目。
當然,他們收集了所有的數據,處理過后得到了一個答案是:亞馬遜需要制作一個有關4個美國共和黨參議員的喜劇。然后,他們真的拍了一部稱為“阿爾法屋”的劇集。但大部分人都不怎么記得有這部片子,因為這部片子的收視率并不太好,它只是一個一般水準的節目。實際上,一般的節目差不多對應曲線上大概7.4分的位置,而“阿爾法屋”落在了7.5分,所以比一般水準的節目高一點點,但絕對不是Roy和他的團隊想要達到的目標。
但在差不多同一時間,另一家公司的另一個決策者,同樣用數據分析的方法卻做出了一個頂尖的節目。Ted Sarandos是Netflix的首席內容官,就跟Roy一樣,他也要不停地尋找最棒的節目,而他也使用了數據分析,但做法有點不太一樣,不是舉辦競賽,他和他的團隊觀察了Netflix已有的所有觀眾數據,比如觀眾對節目的評分、觀看記錄、哪些節目最受歡迎等。他們用這些數據去挖掘觀眾的所有小細節,觀眾喜歡什么類型的節目、什么類型的制作人、什么類型的演員。在收集到全部的細節后,他們信心滿滿地決定要制作一部不是有關4個參議員的喜劇,而是有關一個單身參議員的電視劇——“紙牌屋”。Netflix在這個節目上賺到了極高的收視率。“紙牌屋”在圖1-5的曲線上拿到了9.1分,Ted的團隊的確實現了他們最初的目標。
問題來了,這到底是怎么回事?有兩個非常有競爭力、精通數據分析的公司,它們整合了所有的數據,結果,其中一個干得很漂亮,而另一個卻沒有,這是為什么呢?從邏輯分析的角度來看,這種方法應該每次都有效,也就是說,如果收集了所有的數據來制定一個決策,那就應該可以得到一個相當不錯的決策結果。此時決策者有200年的統計方法做后盾,再運用高性能的計算機去增強它的效果,那么至少可以期待得到一個還不錯的電視節目,不是嗎?
但如果數據分析并沒有想象中的那么有效呢?這似乎就有點出人意料了。因為我們生活在一個越來越依賴數據的時代,我們要用數據做出遠比電視節目還要嚴肅重要的決策。例如MHS這家軟件公司,如果有人在美國被判入獄,要申請假釋,很有可能該公司的數據分析軟件就會被用來判定他是否能獲得假釋。它也是采用跟亞馬遜和Netflix公司相同的原則,但并不是要決定某個電視節目收視率的好壞,而是用來決定一個人將來的行為是好是壞。不幸的是,已經有證據顯示,這項數據分析盡管可以依靠龐大的數據資料,但并不總能得出最優的結果。其實并不只有像MHS這樣的軟件公司不確定到底怎么分析數據,就連最頂尖的數據公司也會出錯,甚至谷歌有時也會出錯。
2009年,谷歌宣布可以用數據分析來預測流行性感冒何時爆發,用自己的搜索引擎來做數據分析。結果證明它很準確,引得各路媒體鋪天蓋地地報道,甚至還在Nature期刊上發表了文章。之后的每一年,它都預測得準確無誤,直到有一年,它失敗了,沒有人知道到底是什么原因,那一年它就是不準了,原先發表的文章也被期刊撤了稿。
所以,即使是最頂尖的數據分析公司,亞馬遜和谷歌,有時也會出錯。盡管出現了這些失敗,數據仍然在馬不停蹄地滲透到我們實際生活中,進入了工作場所、執法過程、醫藥領域等。所以,我們應該確保數據是能夠幫助我們解決問題的。例如在計算遺傳學領域,這個領域內有很多非常聰明的人在用多到難以想象的數據來制定相當嚴肅的決策,如癌癥治療,或者藥物開發。
經過這幾年,人們已經注意到一種關于用數據做出成功決策和不成功決策的模式,大概是這樣的:當你要解決一個復雜問題時,你通常會做兩件事,首先,你會把問題拆分得非常細,這樣你就可以深度地分析這些細節,第二就是再把這些細節重新整合在一起,來得出你要的結論。有時候你必須重復幾次,但基本都是圍繞這兩件事:拆分、再整合。那么關鍵的問題就在于,數據和數據分析只適用于第一步,無論數據和數據分析多么強大,它都只能幫助你拆分問題和了解細節,它不適用于把細節重新整合在一起來得出一個結論。
而有一個“工具”可以實現第二步,我們每個人都有,那就是大腦。如果要說大腦很擅長某一件事,那就是,它很會把瑣碎的細節重新整合在一起,即使你擁有的信息并不完整,也能得到一個好的結論,特別是專家的大腦更擅長這件事。可不可以說,最大的大數據和最好的大數據工具莫過于人的大腦。
而這也是為什么Netflix會這么成功的原因,因為Ted Sarandos和他的團隊在分析過程中同時使用了數據和大腦。他們利用數據,首先去了解觀眾的若干細節,沒有這些數據,他們不可能進行這么透徹的分析,但在之后要做出重新整合時,例如,做出“紙牌屋”這樣的節目的決策,就無法依賴數據了。這是Ted Sarandos和他的團隊通過思考做出了批準該節目的決策,這也就意味著,他們在做出決策的當下,也正在承擔很大的個人風險。而另一方面,亞馬遜全程依賴數據來制定決策,當然,對Roy Price和他的團隊而言,這是一個非常安全的決策,因為他們總是可以指著數據說:“這是數據告訴我們的。”但數據并沒有帶給他們滿意的結果。
誠然,數據依然是做決策時的一個強大的工具,但我們應該相信,當數據開始主導這些決策時,并不能保證萬無一失。我們都應當記住這句話:“不管數據有多么的強大,它都僅僅是一個工具”。
直到現在,我們還是經常會用類似拋硬幣或西方人的“魔球8”(如圖1-6所示)這樣的占卜方式來幫助我們做決定。說真的,很多時候我們是通過深思熟慮來做決定的,事后證明,當初我們也許應該直接搖一搖“魔球8”會更好。

圖1-6 魔球8
但是,如果你手里有數據,你就會想用更尖端的方式來取代這些沒有根據的占卜法,比方說,用數據分析來得到更好的決策。但這有時卻顯得無效。我們應該相信,如果我們想達成某些像IMDB曲線最右端那樣出色的成就,最后的決定權還是應該落在人的身上。
Sebastian Wernicke的演講從一個數據科學家的角度,傳達出了這樣的觀點:數據決策僅僅是工具,在擁有足夠大的數據集和強有力工具的前提下,是否能做出好的決策的根本,依舊在于人腦的定奪。引申一點來講,這也說明當前的多種大數據分析的本質其實就是對概率事件的統計分析。由此看來,大數據并沒有像風傳的那般神奇,它并不能保證給出最好的決策,甚至不一定能保證決策成功。想要發揮大數據的效果,還是要看我們如何運用好它。
再來看一個廣為流傳的總統競選的例子。美國前總統奧巴馬在其競選和任期內也多次運用大數據來協助優化競選方案、集資方式、提升選民支持率以及進行最后的選情預測,詳細的運用情況包括:
① 選民大數據的深度整合。奧巴馬的競選團隊幕后有一支強大的數據分析隊伍,他們對選民數據進行了深入的分析、挖掘并依據計算結果制定初步的競選方案,針對不同地區的選民情況實時調整奧巴馬競選期間的策略。在總統競選前的18個月,奧巴馬的競選團隊就創建了一個龐大系統,這一系統可以將民調者、注資者、工作人員、消費者、社交媒體以及“搖擺州”主要的民主黨投票人的信息進行整合。
② 利用“克魯尼的吸引力法則”籌集競選資金。奧巴馬的數據分析團隊注意到喬治·克魯尼對美國西海岸40~49歲女性具有非常大的吸引力,這部分女性甚至愿意不遠萬里付出大量金錢只為與克魯尼和奧巴馬共進晚餐。該團隊借助這個發現,在東海岸也找到一位對女性群體具備相同號召力的名人,幫助奧巴馬籌集競選資金。
③ 精確進行選民分析,提升競選支持率。在西方的傳播學發展歷程中,以美國學者為代表的經驗學派曾針對大眾媒介在選民投票決策中的影響力做過實證研究,一定程度上也表明了西方政界企圖通過媒介宣傳影響選民決策的傾向性,但由于其中的不可控因素太多,成效難以預測。奧巴馬的連任競選不是再像以前一樣根據“政治嗅覺”控制媒介宣傳,而是通過他的數據團隊展開大量的數據挖掘工作建立不同選民的精細模型,明確選民的“偏好口味”,直接對選民可能做出的決策和投票傾向計算倒戈率和勝算可能性,并通過及時的宣傳策略施以影響。
奧巴馬這位“大數據總統”依靠著大數據技術空前的預測整合能力,輔之以他富有感染力的高水平演講,在權力斗爭中殺出重圍。然而,更值得深思的是,為什么大數據方法卻沒有在2016年的總統選舉中,預測到特朗普會當選呢?
上述例子同樣也佐證了由大數據得出的結論總的來講是個概率事件,真正能把大數據技術用好的關鍵并不在于機器,而是在于人。可以利用不同的方法來把要解決的大數據問題進行分解計算,并把計算結果歸結起來成為最終的結果,但是不同的方法會得到不同的結論,而遵循何種方法,恰恰是取決于人。
投資人巴菲特在談及投資決策時傳達出的理念也同樣佐證了上面的結論:大數據只具有工具性質。以下引用巴菲特的一些言論。
在我們開始探究這些投資大師持續戰勝市場之謎之前,我想先請在座各位跟我一起來觀賞一場想象中的全美硬幣猜正反面大賽。假設我們動員全美國2.25億人明天早上每人賭1美元,猜一下拋出的一個硬幣落到地上是正面還是反面,贏家則可以從輸家手中贏得1美元。每一天輸家被淘汰出局,贏家則把所贏得的錢全部投入,作為第二天的賭注。經過十個早上的比賽,將大約有22萬名美國人連續獲勝,他們每人可贏得略微超過1000美元的錢。
人類的虛榮心本性會使這群贏家們開始有些洋洋得意,盡管他們想盡量表現得十分謙虛,但在雞尾酒會上,為了吸引異性的好感,他們會吹噓自己在拋硬幣上如何技術高超,如何天才過人。
如果贏家從輸家手里得到相應的賭注,再過十天(將會有215位連續猜對20次硬幣的正反面的贏家,通過這一系列較量),他們每個人用1美元贏得了100萬美元之多。215個贏家贏得225百萬美元,這也意味著其他輸家輸掉了225百萬美元。
這群剛剛成為百萬富翁的大贏家們肯定會高興到發昏,他們很可能會寫一本書——“我如何每天只需工作30秒就在20天里用1美元賺到100萬美元”。更有甚者,他們可能會在全國飛來飛去,參加各種拋硬幣神奇技巧的研討會,借機嘲笑那些滿臉疑問的大學教授們:“如果這種事根本不可能發生,難道我們這215個大贏家是從天下掉下來的嗎?”
對此,一些工商管理學院的教授可能會惱羞成怒,他們會不屑一顧地指出:即使是2.25億只大猩猩參加同樣的拋硬幣比賽,結果也毫無二致,只不過贏家是連續猜對20次的215只狂妄自大的大猩猩而已。
但我對此不敢茍同,在我所說的案例中的贏家們確實有一些明顯的與眾不同之處。我所說的案例如下:①參加比賽的2.25億只大猩猩大致像美國人口一樣分布在全國各地;②經過20天比賽之后,只剩下215位贏家;③如果你發現其中40家贏家全部來自奧馬哈的一家十分獨特的動物園,那么你肯定會前往這家動物園找飼養員問個究竟:他們給猩猩喂的是什么食物,他們是否對這些猩猩進行過特殊的訓練,這些猩猩在讀什么書以及其他種種你認為可能的原因。換句話說,如果那些成功的贏家不同尋常地集中,你就會想弄明白到底是什么不同尋常的因素導致了贏家不同尋常的集中。
科學探索一般遵循完全相同的模式。如果試圖分析一種罕見的癌癥的致癌原因,比如每年在美國有1500起病例,你發現400起發生在蒙大拿的幾個礦區小鎮上,你會非常仔細地研究當地的水質、感染病人的職業特征或者其他因素。因為你很清楚,一個面積很小的地區發生400起病例絕不可能是偶然的,你并不需要一開始就知道什么是致病原因,但你必須知道如何去尋找可能的致病原因。
當然,我和各位一樣認為,除地理因素之外,還有很多其他因素會導致贏家非常集中。有一種因素,我們稱之為智力因素。我想你會發現,在投資界為數眾多的大贏家們卻不成比例地全部來自一個小小的智力部落——格雷厄姆和大衛·多德,這種贏家集中的現象根本無法用偶然性或隨機性來解釋,最終只能歸因于這個與眾不同的智力部落。
可能存在一些原因,使這些贏家非常集中的現象其實不過是件平凡的小事。可能100個贏家只不過是簡單地模仿一位非常令人信服的領導者的方法來猜測拋硬幣的正反面,當領導者猜正面朝上時,100個追隨者一起隨聲附和。如果這位領導者是最后勝出的215個贏家中的一員,那么,認為其中100個只會隨聲附和的人獲勝是由于同樣的智力因素的分析就變得毫無意義,你不過是把區區1個成功案例誤認為是100個不同的成功案例。與此類似,假設你生活在一個家長強大統治下的社會中,為方便起見,假設每個美國家庭有10個成員。我們進一步假設家長的統治力非常強大,當2.25億人第一天出門進行比賽時,每個家庭都唯父命是從,父親怎么猜,家人就怎么猜。那么,在20天比賽結束后,你會發現215個贏家其實只不過來自于215個不同的家庭。那些天真的家伙將會說,猜硬幣的成功原因可以用遺傳因素的強大力量來解釋。但這種說法其實毫無意義,因為這215家贏家們并非各不相同,其實真正的贏家是21.5個隨機分布、各不相同的家庭。
我想要研究這一群成功投資者,他們擁有一位共同的智力族長——本杰明·格雷厄姆。但是這些孩子長大離開這個智力家族后,卻是根據不同的方法來進行投資的。他們居住在不同的地區,買賣不同的股票和企業,但他們總體的投資業績絕非是因為他們根據族長的指示所做出的完全相同的投資決策,族長只是為他們提供了投資決策的思想理論,每位學生都以自己的獨特方式來決定如何運用這種理論。
來自“格雷厄姆和大衛·多德部落”的投資者共同擁有的智力核心:尋找企業整體的價值與代表該企業一小部分權益的股票市場價格之間的差異,實質上,他們利用了二者之間的差異,卻毫不在意有效市場理論家們所關心的那些問題——股票應該在星期一還是星期二買進、在1月份還是7月份買進等。簡而言之,企業家收購企業的投資方式,正是追隨格雷厄姆與大衛·多德的投資者在購買流通股票時所采用的投資方式——我十分懷疑有多少企業家會在收購決策中特別強調交易必須在一年中的某個特定月份或一周中的某個特定日子進行。如果企業整體收購在星期一或星期五進行沒任何差別,那么我無法理解那些學究們為什么會花費大量的時間和精力研究代表該企業一小部分股權的股票交易時間的不同將會對投資業績有什么影響。追隨格雷厄姆和大衛·多德的投資者根本不會浪費精力去討論什么Beta、資本資產定價模型、不同證券投資報酬率之間的協方差,他們對這些絲毫也不感興趣。事實上,他們中的大多數人甚至連這些名詞的定義都搞不清楚,追隨格雷厄姆與大衛·多德的投資人只關心兩個變量——價值與價格。
我總是驚奇地發現,如此眾多的學術研究與技術分析臭味相投,他們關注的都是股票價格和數量行為。你能想象整體收購一家企業只是因為價格在前兩周明顯上漲?當然關于價格與數量因素的研究泛濫成災的原因在于電腦的普及應用,電腦制造出了無窮無盡的關于股價和成交數量的數據,這些研究毫無必要,因為它們毫無用途,這些研究出現的原因只是因為有大量的現成數據,而且學者們學會了玩弄數據的高深數學技巧。一旦人們掌握了那些技巧,不運用就會產生一種負罪感,即使這些技巧的運用根本沒有任何作用甚至會有負面作用,正如一位朋友所言,對于一個拿著榔頭的人來說,什么東西看起來都像一顆釘子。
假如讓13億中國人預測20次股市行情呢,即使他們對股市一竅不通,猜對20次的仍約有1242位,可想而知這1242位“股市高手”會多么的自命不凡……
我究竟想說什么?我想說的是:假如你成功地預言了若干次股市行情,但你的預測依據是錯的,那你的預測就一錢不值。
這正應了投資人巴菲特所說的:“后視鏡永遠比擋風玻璃讓你看得更清晰”,這就是說,誰都可以是事后諸葛亮,對發生過的事情都能說出個一二三來。
我們花了不小的篇幅描述了用大數據設計拍攝電視劇、大數據選總統、大數據投資三個具體例子,想傳達給讀者的是:樣本集的大小、樣本的質量以及對于樣本的詮釋方式等的不同,會使得數據決策的最后結果產生很大的差異。
雖然大數據研究是由過去發生的事情、已知的事情,來方便人們的生活,甚至預測未來,但是這種預測一定帶有不確定性。大數據和傳統的統計學最大的差別之一在于它的樣本集大了,但是再大也不可能是全樣本,所以概率事件是個很正常的事情。
迷信大數據是一個誤區。大數據只是一個工具,并不一定能直接給出特別精確的答案,肯定不能保證每次都是對的。要讓“大數據”這一工具用得好,首先得用對地方,其次要會正確地使用,因此,真正能發揮大數據價值的關鍵,在于我們的大腦。
- App+軟件+游戲+網站界面設計教程
- 企業大數據系統構建實戰:技術、架構、實施與應用
- 數據庫應用基礎教程(Visual FoxPro 9.0)
- OracleDBA實戰攻略:運維管理、診斷優化、高可用與最佳實踐
- Learning Proxmox VE
- 數據挖掘原理與SPSS Clementine應用寶典
- 數據庫與數據處理:Access 2010實現
- 計算機視覺
- 大數據與機器學習:實踐方法與行業案例
- Oracle 11g+ASP.NET數據庫系統開發案例教程
- NoSQL數據庫原理(第2版·微課版)
- 深入理解Flink:實時大數據處理實踐
- 代碼的未來
- 數據庫原理及應用實驗:基于GaussDB的實現方法
- AutoCAD基礎與應用精品教程(2008版)