官术网_书友最值得收藏!

一本讀透影響時(shí)代的七大技術(shù)


數(shù)據(jù)科學(xué)家: 21世紀(jì)“最性感的職業(yè)”

托馬斯·達(dá)文波特 (Thomas H.Davenport) D.J. 帕蒂爾(D.J.Patil) | 文 熊靜如 | 譯

2006年6月,喬納森·高德曼(Jonathan Goldman)進(jìn)入商務(wù)社交網(wǎng)站LinkedIn工作。那時(shí)的LinkedIn還像是一家初創(chuàng)企業(yè),只有不到800萬(wàn)個(gè)用戶。隨著這些用戶不斷邀請(qǐng)朋友同事加入,網(wǎng)站的用戶數(shù)量開始迅速增長(zhǎng)。但是,用戶在已注冊(cè)者中尋找聯(lián)系人的比例卻沒有達(dá)到管理者們的預(yù)期。顯然,這種社交體驗(yàn)不夠完整。正如LinkedIn的一位經(jīng)理所言,“這種情況就如同你到達(dá)會(huì)議接待處,發(fā)現(xiàn)自己誰(shuí)都不認(rèn)識(shí),只能呷著飲料呆在角落—你很可能會(huì)提前離場(chǎng)?!?/p>

高德曼作為斯坦福大學(xué)物理學(xué)博士,醉心于無(wú)處不在的鏈接和豐富的用戶資料。雖然這兩者通常只能形成混亂的數(shù)據(jù)和淺顯的分析,但當(dāng)他著手挖掘人際聯(lián)系時(shí),卻從中發(fā)現(xiàn)了“新大陸”。他開始構(gòu)建理論、檢驗(yàn)預(yù)設(shè),并研究出了模型。通過這些模型,他可以預(yù)測(cè)出某賬號(hào)所歸屬的人際網(wǎng)絡(luò)。高德曼覺得,在探索基礎(chǔ)之上形成的新功能也許能為用戶提供價(jià)值。但LinkedIn的工程師團(tuán)隊(duì),一心只想擴(kuò)大網(wǎng)站規(guī)模,對(duì)高德曼的想法無(wú)動(dòng)于衷。當(dāng)時(shí)一些同事甚至公然對(duì)高德曼的想法嗤之以鼻—網(wǎng)站已經(jīng)有地址簿輸入端,可以將用戶所有的聯(lián)系人導(dǎo)入進(jìn)來(lái)。為什么還要LinkedIn為用戶找出他們的人際網(wǎng)絡(luò)?

幸運(yùn)的是,LinkedIn的聯(lián)合創(chuàng)始人兼時(shí)任CEO雷德·霍夫曼(現(xiàn)執(zhí)行總裁),在貝寶(PayPal)的工作經(jīng)驗(yàn)讓他對(duì)分析學(xué)的威力深信不疑,因此,他給了高德曼高度的自主權(quán)。首先,他給予高德曼一個(gè)不同于傳統(tǒng)產(chǎn)品發(fā)布套路的新方式—在網(wǎng)站黃金頁(yè)面以廣告的形式掛出小型加載模塊。

通過該模塊,高德曼開始測(cè)試—如果將人們可能認(rèn)識(shí)(例如那些同時(shí)期在同一學(xué)?;蚬ぷ鲌?chǎng)所的人)但尚未彼此聯(lián)系的人名推薦給他們,將會(huì)發(fā)生什么?測(cè)試采取的方式是,以用戶在LinkedIn的個(gè)人資料為基礎(chǔ),用商業(yè)廣告的形式為每個(gè)用戶推薦三名最匹配的新聯(lián)系人。短短幾天之內(nèi),該測(cè)試就顯示出非凡成效。這些廣告創(chuàng)造了前所未有的高點(diǎn)擊率。高德曼繼續(xù)改良推薦聯(lián)系人的生成方式,提煉出合并社交網(wǎng)絡(luò)的理念,比如,“三角形閉合”—如果你認(rèn)識(shí)拉里和蘇,那么拉里和蘇很有可能彼此相識(shí)。高德曼和他的團(tuán)隊(duì)還把回復(fù)推薦廣告的動(dòng)作簡(jiǎn)化為一次點(diǎn)擊。

LinkedIn的高管們沒過多久便意識(shí)到這是一個(gè)好點(diǎn)子,并將之固化為標(biāo)準(zhǔn)功能。此時(shí),新功能開始大放異彩。與其他旨在促進(jìn)用戶多瀏覽網(wǎng)站頁(yè)面的促銷手段相比,“你可能認(rèn)識(shí)的人”(People You May Know)—這一廣告的點(diǎn)擊率高出30%,創(chuàng)造了以百萬(wàn)計(jì)的新頁(yè)面瀏覽量。得益于這一功能,LinkedIn的增長(zhǎng)曲線急劇攀升。

一項(xiàng)新職業(yè)

高德曼代表著組織中新的關(guān)鍵角色—“數(shù)據(jù)科學(xué)家”(Data Scientist)。他們是一群訓(xùn)練有素、樂于在大數(shù)據(jù)的世界中進(jìn)行探索的高級(jí)專家。這一職位近幾年才涌現(xiàn)出來(lái)(實(shí)際上,這一概念直到2008年,才由本文作者之一D.J. 帕蒂爾和杰夫·哈默巴赫爾創(chuàng)造,隨后LinkedIn和Facebook在數(shù)據(jù)和分析領(lǐng)域各領(lǐng)風(fēng)騷)。但是目前數(shù)千名數(shù)據(jù)科學(xué)家已經(jīng)供職于各類公司,包括初創(chuàng)型企業(yè)和根基穩(wěn)固的公司。數(shù)據(jù)科學(xué)家在商業(yè)世界中嶄露頭角反映出一個(gè)事實(shí):企業(yè)正在應(yīng)對(duì)前所未有的龐大而多樣的信息。如果你的組織存有數(shù)千萬(wàn)億字節(jié)的海量數(shù)據(jù);如果那些對(duì)企業(yè)至關(guān)重要的信息排列無(wú)序;再或者,如果解決你最大的難題需要融合多種分析工具的話,那么,恭喜你,利用大數(shù)據(jù)的機(jī)會(huì)來(lái)啦!

目前,對(duì)于大數(shù)據(jù)的熱情多數(shù)聚焦于能夠馴服大數(shù)據(jù)的技術(shù),包括分布式計(jì)算Hadoop(應(yīng)用最廣的文件系統(tǒng)處理框架)以及相關(guān)開源工具、云計(jì)算和數(shù)據(jù)可視化。雖然這些技術(shù)可謂神兵利器,但擁有精通這些技術(shù)(以及思想)的人才更加重要。在這一前沿領(lǐng)域,此類人才已經(jīng)供不應(yīng)求。事實(shí)上,數(shù)據(jù)科學(xué)家短缺已成為制約一些部門發(fā)展的瓶頸。曾投過Facebook、LinkedIn、Palo Alto Networks(著名網(wǎng)絡(luò)安全公司)和Workday(人力資源軟件制造商)的早期風(fēng)險(xiǎn)投資公司格雷洛克風(fēng)險(xiǎn)投資公司,對(duì)于緊缺的人才供應(yīng)感到非常焦慮,于是他們建立了特別招聘團(tuán)隊(duì),將人才直接輸送給企業(yè)的相關(guān)業(yè)務(wù)部門?!耙坏┯辛藬?shù)據(jù)”,該團(tuán)隊(duì)負(fù)責(zé)人丹·波蒂略(Dan Portillo)說(shuō),“企業(yè)就需要能夠管理和洞察它們的人”。

這些人是誰(shuí)?

如果說(shuō),對(duì)大數(shù)據(jù)的利用很大程度上依賴于聘用稀缺的數(shù)據(jù)科學(xué)家,那么管理者面臨的挑戰(zhàn)就是學(xué)習(xí)如何發(fā)現(xiàn)和招聘這些人才并為公司所用。這些任務(wù)一旦與管理者的其他組織角色結(jié)合,便不再像看上去那么簡(jiǎn)單明了。事實(shí)上,所有大學(xué)都尚未設(shè)置數(shù)據(jù)科學(xué)的學(xué)位(課程)。同樣,數(shù)據(jù)科學(xué)家在組織中的諸多問題也未有定論,比如他們應(yīng)該扮演什么角色,這一角色如何才能創(chuàng)造最大價(jià)值,以及該如何衡量他們的表現(xiàn)。

因此,解決數(shù)據(jù)科學(xué)家短缺的第一步,是理解他們?cè)谄髽I(yè)中的職責(zé),然后再思考,他們應(yīng)該具備什么技能?這些技能最容易在什么領(lǐng)域找到?

數(shù)據(jù)科學(xué)家徜徉于數(shù)據(jù)海洋的同時(shí),最重要的是進(jìn)行探索。為身邊的世界導(dǎo)航正是他們的拿手好戲,他們?cè)跀?shù)據(jù)領(lǐng)域得心應(yīng)手,能夠?qū)⒋罅坎灰?guī)則數(shù)據(jù)組織起來(lái),使之成為可分析的數(shù)據(jù)。他們找出豐富的數(shù)據(jù)源,并與其他數(shù)據(jù)源(可能是不完整的數(shù)據(jù)源)連接起來(lái),清理、簡(jiǎn)化運(yùn)算結(jié)果。在充滿競(jìng)爭(zhēng)的世界中,挑戰(zhàn)隨時(shí)變化,數(shù)據(jù)流動(dòng)不息,數(shù)據(jù)科學(xué)家能幫助決策者從特設(shè)分析(ad hoc analysis)轉(zhuǎn)向與數(shù)據(jù)持續(xù)不斷的對(duì)話。

數(shù)據(jù)科學(xué)家認(rèn)識(shí)到所面臨的技術(shù)限制,但是他們不愿意停下研究等待新解決方案的出現(xiàn)。一旦他們有了新成果,就非常樂于傳播新成果,并闡明該成果對(duì)企業(yè)未來(lái)發(fā)展方向的影響。通常他們?cè)谛畔⒖梢暬故疽约傲钅J角逦⒏哂姓f(shuō)服力方面頗有創(chuàng)意。他們依據(jù)數(shù)據(jù)所顯示出的信息,為企業(yè)高管和產(chǎn)品經(jīng)理提供產(chǎn)品、流程、決策方面的建議。

數(shù)據(jù)科學(xué)家的短缺將成為制約一些業(yè)務(wù)發(fā)展的瓶頸

核心觀點(diǎn)

一個(gè)全新角色在公司中的地位正在迅速崛起:那就是數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家是一群懂得如何從現(xiàn)有的海量非結(jié)構(gòu)化信息中采擷重要商業(yè)難題答案的人。在企業(yè)奔向大數(shù)據(jù)應(yīng)用的道路上,最大的絆腳石就是這類特殊人才的短缺。

大學(xué)里還沒有大量炮制數(shù)據(jù)科學(xué)家的課程,因此招聘數(shù)據(jù)科學(xué)家時(shí)要有創(chuàng)造力。你可以從任何一個(gè)以數(shù)據(jù)和運(yùn)算為重點(diǎn)的領(lǐng)域來(lái)尋找,從實(shí)驗(yàn)物理學(xué)到系統(tǒng)生物學(xué)不一而足。你還要認(rèn)識(shí)到,吸引和留住一個(gè)數(shù)據(jù)科學(xué)家的理由,可能不同于其他專家。

數(shù)據(jù)科學(xué)家需要自治權(quán)利,同時(shí)還想登上“艦橋”,隨時(shí)回應(yīng)負(fù)責(zé)管理的同事提出的管理問題。薪金意味著價(jià)值,但在這個(gè)快速發(fā)展的學(xué)科中,解決有趣的問題、利用最豐富的數(shù)據(jù)流,從而出人頭地的機(jī)會(huì),可能意味著更多。

由于這項(xiàng)業(yè)務(wù)正處在發(fā)展初期,數(shù)據(jù)科學(xué)家往往還要承擔(dān)起改進(jìn)數(shù)據(jù)分析工具甚至開展學(xué)術(shù)研究的任務(wù)。雅虎是早期雇用數(shù)據(jù)科學(xué)家的公司之一,在開發(fā)數(shù)據(jù)分析工具Hadoop方面貢獻(xiàn)良多。Facebook的數(shù)據(jù)團(tuán)隊(duì)為Hadoop編程開發(fā)了Hive(一個(gè)數(shù)據(jù)倉(cāng)庫(kù)框架)。還有許多數(shù)據(jù)科學(xué)家參與了改善技術(shù)工具的過程,這種情況尤以數(shù)據(jù)驅(qū)動(dòng)型企業(yè)為甚,如谷歌、亞馬遜、微軟、沃爾瑪、eBay、LinkedIn和Twitter。

何人能勝任這些事?成功的數(shù)據(jù)科學(xué)家應(yīng)具備什么能力?答案是:他(或她)應(yīng)該是數(shù)據(jù)黑客、分析師、傳播者和靠譜顧問的綜合體,這樣的組合可謂極其強(qiáng)大,同時(shí)也極其罕見。

數(shù)據(jù)科學(xué)家最基本和普遍的能力是寫代碼。但5年后,當(dāng)比今天多得多的人把“數(shù)據(jù)科學(xué)家”這一頭銜印在名片上時(shí),這一點(diǎn)可能沒那么絕對(duì)。比寫代碼能力更持久走俏的,是能夠用所有利益相關(guān)者都能聽明白的語(yǔ)言進(jìn)行交流的能力。他們要能夠展示出用數(shù)據(jù)說(shuō)話的能力,包括口頭表達(dá)和形象化展示,最好兩者兼?zhèn)洹?/p>

但我們認(rèn)為,數(shù)據(jù)科學(xué)家身上最重要的品質(zhì)是強(qiáng)烈的好奇心,即透過現(xiàn)象看本質(zhì)并將之提煉為清晰的、可驗(yàn)證的假說(shuō)的能力。這一點(diǎn)通常需要聯(lián)想思維,正是聯(lián)想思維塑造了各個(gè)領(lǐng)域中最富創(chuàng)造力的科學(xué)家。舉例來(lái)說(shuō),我們知道,有一個(gè)研究欺詐問題的數(shù)據(jù)科學(xué)家就想到,他所研究的問題和DNA排序問題具有相似性。通過將兩個(gè)不相關(guān)的領(lǐng)域聯(lián)系起來(lái),他和他的團(tuán)隊(duì)起草出了一個(gè)能夠顯著減少欺詐損失的方案。

為什么對(duì)這一新角色冠以“科學(xué)家”的稱號(hào)?答案或許已浮現(xiàn)出來(lái)。例證之一就是實(shí)驗(yàn)物理學(xué)家,他們同樣需要設(shè)計(jì)實(shí)驗(yàn)裝備,收集數(shù)據(jù),開展多個(gè)實(shí)驗(yàn)并傳播研究成果。因此,想要招聘能處理復(fù)雜數(shù)據(jù)人才的企業(yè),在具有物理或社會(huì)科學(xué)專業(yè)教育和工作背景的人群中,更易有所斬獲。有些頂尖的數(shù)據(jù)科學(xué)家是來(lái)自生態(tài)學(xué)、系統(tǒng)物理學(xué)等深?yuàn)W領(lǐng)域的博士,比如,硅谷Intuit(一家為公司提供財(cái)務(wù)軟件的廠商)的數(shù)據(jù)科學(xué)團(tuán)隊(duì)領(lǐng)頭人喬治· 魯邁利奧蒂斯(George Roumeliotis),就擁有天體物理學(xué)博士頭銜。較為意料之中的是,許多現(xiàn)在供職于企業(yè)的數(shù)據(jù)科學(xué)家曾接受過計(jì)算機(jī)科學(xué)、數(shù)學(xué)或是經(jīng)濟(jì)學(xué)訓(xùn)練。數(shù)據(jù)科學(xué)家可以來(lái)自于任何一個(gè)領(lǐng)域,只要這一領(lǐng)域重點(diǎn)關(guān)注數(shù)據(jù)和運(yùn)算。

謹(jǐn)記科學(xué)家的職業(yè)概念非常重要,因?yàn)椤皵?shù)據(jù)”一詞很容易將研究引入歧途。正如波蒂略所言,“一個(gè)人只擁有10~15年前的傳統(tǒng)教育和工作背景,完全不能適應(yīng)今日所需?!倍糠治稣咭苍S善于分析數(shù)據(jù),但卻不擅長(zhǎng)應(yīng)對(duì)一大堆混亂無(wú)序的非結(jié)構(gòu)化數(shù)據(jù)并將其整理為可分析的數(shù)據(jù)形式。一個(gè)數(shù)據(jù)管理專家或許擅長(zhǎng)生成數(shù)據(jù)、將數(shù)據(jù)整理為結(jié)構(gòu)化形式,但卻不擅于將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,也不善于對(duì)數(shù)據(jù)進(jìn)行切實(shí)分析。表達(dá)能力不那么強(qiáng)的人可以成為傳統(tǒng)數(shù)據(jù)專家,但卻無(wú)法成為數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家必須具備這些技能才能發(fā)揮作用。

魯邁利奧蒂斯明確說(shuō),他在招聘時(shí)不會(huì)偏重?cái)?shù)據(jù)或分析能力。他尋找數(shù)據(jù)科學(xué)家的第一步,就是問應(yīng)聘者能不能用Java之類的主流程序語(yǔ)言開發(fā)原型。魯邁利奧蒂斯尋找的對(duì)象要擁有一套能力體系,包括堅(jiān)實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)、概率學(xué)以及計(jì)算機(jī)科學(xué)基礎(chǔ),還要有良好的思維習(xí)慣。他希望尋找的人具有商業(yè)感覺和客戶同理心。他說(shuō),他所要求具備的這些能力,都得益于在職培訓(xùn)和偶爾地講授特定技術(shù)的課程。

一些大學(xué)正在計(jì)劃開設(shè)數(shù)據(jù)科學(xué)課程,現(xiàn)有的一些分析課程,比如北卡羅來(lái)納州的分析科學(xué)碩士項(xiàng)目,正忙于引入大數(shù)據(jù)的練習(xí)和課程。一些企業(yè)也在試著培養(yǎng)自己的數(shù)據(jù)科學(xué)家。EMC在收購(gòu)Greenplum之后,決意將數(shù)據(jù)科學(xué)家的應(yīng)用作為自身和客戶在大數(shù)據(jù)開發(fā)中的控制性因素。因此,EMC的培訓(xùn)服務(wù)部門開設(shè)了數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的培訓(xùn)和認(rèn)證項(xiàng)目。該項(xiàng)目對(duì)員工和客戶同時(shí)開放,培養(yǎng)出的一些學(xué)員已經(jīng)在做內(nèi)部大數(shù)據(jù)方案。

隨著教育課程的激增,人才輸送渠道也應(yīng)得到擴(kuò)展。大數(shù)據(jù)技術(shù)的供應(yīng)商也在努力提高易用性。同時(shí),一位大數(shù)據(jù)科學(xué)家提出了富有創(chuàng)意地彌合鴻溝的方法。“數(shù)據(jù)科學(xué)伙伴項(xiàng)目”(IDSFP)是由一位高能物理學(xué)家杰克·克拉姆卡(Jake Klamka)設(shè)計(jì)的博士后獎(jiǎng)學(xué)金項(xiàng)目。該項(xiàng)目從學(xué)術(shù)界中選取科學(xué)家,用6周時(shí)間將他們成功打造為數(shù)據(jù)科學(xué)家。項(xiàng)目有來(lái)自當(dāng)?shù)仄髽I(yè)(如Facebook、Twitter、谷歌和LinkedIn)的數(shù)據(jù)專家的理論指導(dǎo),同時(shí)結(jié)合大數(shù)據(jù)的實(shí)際問題。起初計(jì)劃招生目標(biāo)是10人,而克拉姆卡最終從超過200個(gè)報(bào)名者中招收了30人,越來(lái)越多的組織正排起長(zhǎng)隊(duì)想要參與進(jìn)來(lái)?!皝?lái)自企業(yè)的需求異乎尋常得大,”,克拉姆卡說(shuō),“他們確實(shí)難以找到這方面的優(yōu)質(zhì)人才”。

為何愿意在此工作?

雖然數(shù)據(jù)科學(xué)家的地位正在不斷提升,對(duì)頂級(jí)人才的爭(zhēng)奪仍將非常激烈。滿足招聘要求的候選人在考量工作機(jī)會(huì)時(shí),往往以對(duì)大數(shù)據(jù)的興趣為導(dǎo)向。一位頂尖數(shù)據(jù)科學(xué)家說(shuō),“如果想處理結(jié)構(gòu)化的數(shù)據(jù),我們會(huì)去華爾街工作”??紤]到如今大多數(shù)符合要求的候選人來(lái)自非商業(yè)領(lǐng)域,招聘經(jīng)理們也許需要想辦法描繪一個(gè)激動(dòng)人心的前景,強(qiáng)調(diào)他們面臨的問題具有帶來(lái)突破性進(jìn)展的可能,以吸引數(shù)據(jù)科學(xué)家的關(guān)注。

薪水當(dāng)然是一個(gè)因素。一個(gè)出色的數(shù)據(jù)科學(xué)家會(huì)面對(duì)很多企業(yè)拋出的橄欖枝,薪水也隨之水漲船高。一些供職于初創(chuàng)型企業(yè)的數(shù)據(jù)科學(xué)家說(shuō),他們已經(jīng)提出甚至得到了一筆龐大的股票期權(quán)。即便一些人由于其他原因接受了該職位,薪資依然代表著受尊重的水平和企業(yè)對(duì)該職位價(jià)值回報(bào)的預(yù)期。但是,我們對(duì)數(shù)據(jù)科學(xué)家的心理排序所做的非正式調(diào)查卻顯示出一些或許更基礎(chǔ)、也更重要的東西。這群人想要“走上艦橋”—典故來(lái)自20世紀(jì)60年代電視劇《星際迷航》,電視劇中的艦長(zhǎng)詹姆斯·柯克非常依賴于史波克博士提供的數(shù)據(jù)。數(shù)據(jù)科學(xué)家想要站上浪潮之巔,實(shí)時(shí)地觀察腳下滾滾而來(lái)的機(jī)會(huì)。

考慮到招聘和留住數(shù)據(jù)科學(xué)家的困難,企業(yè)應(yīng)該思考出一個(gè)好的策略吸引他們來(lái)做顧問。大多數(shù)咨詢公司都還沒有配備大量的數(shù)據(jù)科學(xué)家,即使像埃森哲、德勤和IBM全球服務(wù)這樣的“大象”們,也還處在為客戶引入大數(shù)據(jù)項(xiàng)目的早期階段。他們所擁有的數(shù)據(jù)科學(xué)家的作用,主要用于較常規(guī)的定量分析。但Mu Sigma之類的離岸分析服務(wù)公司,可能會(huì)率先邁出應(yīng)用大數(shù)據(jù)科學(xué)家的重要一步。

但是本文所討論的數(shù)據(jù)科學(xué)家們想要進(jìn)行創(chuàng)造,而不僅是給決策者提供建議。有人曾將做顧問稱作是“死亡地帶—你所要做的只是告訴別人數(shù)據(jù)分析給出的建議”。但通過創(chuàng)造有效的解決方案,他們能夠擁有更多的影響力,并因?yàn)槌蔀橥袠I(yè)先驅(qū)而彪炳史冊(cè)。

關(guān)注和培養(yǎng)

權(quán)限過少的情況下,數(shù)據(jù)科學(xué)家難有出色表現(xiàn)。他們應(yīng)該得到進(jìn)行試驗(yàn)和探索可能性的自由,也就是說(shuō),他們需要與企業(yè)其他部門密切聯(lián)系。他們最需要與之建立聯(lián)系的人應(yīng)該是負(fù)責(zé)產(chǎn)品和服務(wù)的主管,而不是總攬企業(yè)全局的人。正如喬納森·高德曼的故事所告訴我們的,他們?yōu)槠髽I(yè)創(chuàng)造價(jià)值的最好機(jī)會(huì)不在于寫報(bào)告、也不是為高管做演講,而是在與顧客直接相關(guān)的產(chǎn)品和流程方面進(jìn)行創(chuàng)新。

如何找到你需要的數(shù)據(jù)科學(xué)家

1.招聘重點(diǎn)放在那些盛產(chǎn)數(shù)據(jù)科學(xué)家的大學(xué)(斯坦福大學(xué)、麻省理工學(xué)院、加州大學(xué)伯克利分校、哈佛大學(xué)、卡內(nèi)基梅隆大學(xué)),以及其他一些實(shí)力雄厚的大學(xué):北卡羅萊納州立大學(xué)、加州大學(xué)圣克魯茲分校、馬里蘭大學(xué)、華盛頓大學(xué)和德州大學(xué)奧斯汀分校。

2.瀏覽數(shù)據(jù)科學(xué)工具的興趣小組成員名單,比如R User組(一個(gè)受數(shù)據(jù)科學(xué)家們喜愛的統(tǒng)計(jì)工具)和Python興趣組(PIGgies),就是搜尋數(shù)據(jù)科學(xué)家的好地方。

3.在LinkedIn上尋找數(shù)據(jù)科學(xué)家——他們幾乎全部聚集于此,你還可以查看他們是否具有你想要的技能。

4.走出去和數(shù)據(jù)科學(xué)家階層廝混在一起。參加數(shù)據(jù)和Hadoop方面的會(huì)議和類似聚會(huì)(如今這些會(huì)議幾乎每周一次)或是數(shù)據(jù)科學(xué)家們?cè)跒硡^(qū)、波士頓、紐約、華盛頓、倫敦、新加坡和悉尼的非正式會(huì)議。

5.結(jié)交本地風(fēng)險(xiǎn)投資家,他手中可能握有許多大數(shù)據(jù)方面的創(chuàng)業(yè)計(jì)劃書。

6.在Kaggle或者topCoder之類的分析和編碼競(jìng)賽網(wǎng)站上舉辦一場(chǎng)競(jìng)賽,跟進(jìn)聯(lián)絡(luò)最富創(chuàng)造性的參賽者。

7.別在不會(huì)編碼的候選者身上浪費(fèi)時(shí)間,候選人的編碼能力不一定要世界一流,但至少應(yīng)說(shuō)得過去。同時(shí)你要檢驗(yàn)候選者是否能快速地學(xué)習(xí)新技術(shù)和方法。

8.確保候選者能夠在數(shù)據(jù)組中找到線索,并能清晰連貫地表述出其主要數(shù)據(jù)發(fā)現(xiàn)。你應(yīng)測(cè)試一他是否能形象生動(dòng)地用數(shù)字進(jìn)行交流。

9.小心那些完全脫離商業(yè)世界的候選者。當(dāng)你問他,怎樣用數(shù)據(jù)工作來(lái)解決你的管理問題,他是否會(huì)無(wú)言以對(duì)?

10.詢問候選者最喜歡的數(shù)據(jù)分析或觀點(diǎn),以及他們?nèi)绾伪3旨夹g(shù)敏銳度。他們是否拿到了斯坦福的在線機(jī)器學(xué)習(xí)課程證書?是否對(duì)開源項(xiàng)目有所貢獻(xiàn)?是否在gitHub之類的編程及代碼托管網(wǎng)站建立了可供分享的代碼庫(kù)?

并非只有LinkedIn在應(yīng)用數(shù)據(jù)科學(xué)家來(lái)生成產(chǎn)品、特征和增值服務(wù)方面的創(chuàng)意。Intuit公司要求數(shù)據(jù)科學(xué)家為小企業(yè)客戶和消費(fèi)者提供觀點(diǎn),向負(fù)責(zé)大數(shù)據(jù)、社交設(shè)計(jì)和營(yíng)銷的新任副總裁進(jìn)行匯報(bào);通用電氣已經(jīng)在使用數(shù)據(jù)科學(xué)家來(lái)優(yōu)化服務(wù)合同、工業(yè)產(chǎn)品的維修間隔;谷歌在使用數(shù)據(jù)科學(xué)家來(lái)優(yōu)化自己的核心搜索和廣告服務(wù)算法;Zynga使用數(shù)據(jù)科學(xué)家來(lái)優(yōu)化游戲體驗(yàn)以打造長(zhǎng)久客戶紐帶并帶來(lái)收入;Netflix創(chuàng)造了著名的Netflix獎(jiǎng),授予開發(fā)出了影片推薦最佳方案的企業(yè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì);應(yīng)試教育公司卡普蘭(Kaplan)使用它的數(shù)據(jù)科學(xué)家來(lái)發(fā)現(xiàn)有效的學(xué)習(xí)戰(zhàn)略。

然而,數(shù)據(jù)科學(xué)家們?cè)跀?shù)據(jù)這一快速發(fā)展的領(lǐng)域中擁有高超的技能。若讓他們把時(shí)間花在與管理人員建立聯(lián)系上,會(huì)帶來(lái)潛在的副作用。他們與同類專家的交流會(huì)減少,而他們需要這種交流來(lái)保持自身技能和所使用的工具跟得上最尖端的潮流。數(shù)據(jù)科學(xué)家必須接觸公司內(nèi)外的社會(huì)實(shí)踐。支持合作與技術(shù)分享的新的會(huì)議和非正式聯(lián)盟正在不斷涌現(xiàn),企業(yè)應(yīng)當(dāng)本著“水漲船高”的理念鼓勵(lì)科學(xué)家參與其中。

面對(duì)的期待越多,數(shù)據(jù)科學(xué)家往往越有動(dòng)力。有時(shí),獲取和組織大數(shù)據(jù)的挑戰(zhàn)占據(jù)了太多時(shí)間和精力,使數(shù)據(jù)科學(xué)家難以進(jìn)行預(yù)測(cè)和優(yōu)化復(fù)雜分析。然而,如果主管們聲明他們滿足于簡(jiǎn)單報(bào)告,數(shù)據(jù)科學(xué)家將會(huì)奉獻(xiàn)出更多的精力來(lái)進(jìn)行高階分析。大數(shù)據(jù)不應(yīng)該被等同于“小數(shù)學(xué)”。

這十年最熱門的工作

谷歌首席經(jīng)濟(jì)學(xué)家哈爾·范里安曾有一句眾所周知的話:“未來(lái)10年最炙手可熱的工作將是統(tǒng)計(jì)學(xué)家。大家以為我在開玩笑,但誰(shuí)又曾猜到計(jì)算機(jī)工程師成了20世紀(jì)90年代的性感工作呢?”

如果說(shuō)“性感”意味著需求龐大而又為數(shù)稀少的素質(zhì),數(shù)據(jù)科學(xué)家已然稱得上“性感”。

數(shù)據(jù)科學(xué)家招聘難、聘用花費(fèi)高,并且由于市場(chǎng)競(jìng)爭(zhēng)激烈難以留住他們,因?yàn)橥瑫r(shí)擁有理科、計(jì)算機(jī)和分析學(xué)背景的人實(shí)在不多。

如今的數(shù)據(jù)科學(xué)家類似于20世紀(jì)八九十年代華爾街的“寬客(Quants 金融數(shù)量分析師)”。當(dāng)時(shí),擁有物理學(xué)和數(shù)學(xué)背景的人紛紛投身于投資銀行和對(duì)沖基金,在那里他們能夠設(shè)計(jì)全新的算法和數(shù)據(jù)策略。爾后各類大學(xué)紛紛開設(shè)金融工程學(xué)的碩士課程,催生出了更貼合主流企業(yè)的第二代人才。隨后的90年代,這一模式在搜索工程師身上重演,他們稀有的技能不久便成了計(jì)算機(jī)科學(xué)課程所教授的內(nèi)容。

這種模式的存在拋出了一個(gè)問題,如果企業(yè)坐等第二代數(shù)據(jù)科學(xué)家興起,等到被選者大量增多、更易審核、更易融入團(tuán)隊(duì)時(shí)再招入公司,是不是一個(gè)更明智的做法?為什么不把尋找和培養(yǎng)特殊人才的麻煩留給其他公司呢?比如初創(chuàng)的大數(shù)據(jù)公司或者是通用電氣、沃爾瑪之類需要數(shù)據(jù)科學(xué)家來(lái)沖鋒陷陣,以實(shí)現(xiàn)其激進(jìn)戰(zhàn)略的公司。

企業(yè)若以此為據(jù),會(huì)遇到麻煩。因?yàn)榇髷?shù)據(jù)的發(fā)展沒有任何放緩的跡象。在早期,企業(yè)如果由于缺乏人才而袖手旁觀,會(huì)擔(dān)上落后于人的風(fēng)險(xiǎn),而其他競(jìng)爭(zhēng)對(duì)手和渠道伙伴會(huì)獲得幾乎難以估量的競(jìng)爭(zhēng)優(yōu)勢(shì)。如今,大數(shù)據(jù)恰如一次洶涌而來(lái)的時(shí)代浪潮,如果你想抓住它,你需要會(huì)沖浪的人。

托馬斯·達(dá)文波特是哈佛商學(xué)院客座教授、德勤分析部門高級(jí)顧問和《判斷力說(shuō)了算》一書的合著者(哈佛商業(yè)評(píng)論出版社,2012年)。 D.J.帕蒂爾是格雷洛克風(fēng)投公司Greylock Partners的數(shù)據(jù)科學(xué)家,之前擔(dān)任 LinkedIn的數(shù)據(jù)產(chǎn)品負(fù)責(zé)人,同時(shí)還是《數(shù)據(jù)柔術(shù):將數(shù)據(jù)轉(zhuǎn)化為產(chǎn)品的藝術(shù)》(The Art of Turning Data into Product,出版社:o’Reilly Media,2012年)一書的作者。

主站蜘蛛池模板: 鹿泉市| 通许县| 万荣县| 嘉荫县| 台东县| 乌鲁木齐县| 名山县| 达拉特旗| 竹山县| 武隆县| 永寿县| 宕昌县| 邵东县| 滨州市| 黄石市| 霍邱县| 洪洞县| 察隅县| 临夏县| 宾阳县| 林甸县| 柳林县| 安徽省| 天津市| 霍山县| 奉节县| 韶关市| 西乡县| 清苑县| 建始县| 大埔区| 龙泉市| 扎囊县| 红河县| 洛扎县| 科技| 石景山区| 吉安县| 黄浦区| 图片| 浦县|