官术网_书友最值得收藏!

1.1 數(shù)據(jù)中臺概念的起源

盡管大數(shù)據(jù)產(chǎn)生于硅谷,數(shù)據(jù)中臺與大數(shù)據(jù)關(guān)系密切,但硅谷卻沒有數(shù)據(jù)中臺這個(gè)名詞,因此,我們首先要來看看“數(shù)據(jù)中臺”的概念是如何在其倡議者阿里巴巴內(nèi)部產(chǎn)生的。下面的故事想必很多人都聽說過。

2015年年中,馬云帶領(lǐng)阿里巴巴集團(tuán)高管拜訪了一家芬蘭的小型游戲公司Supercell。讓馬云及其高管團(tuán)隊(duì)感到驚訝的是,這家僅有不到200名員工的小型游戲公司竟創(chuàng)造了高達(dá)15億美元的年稅前利潤!該公司典型的開發(fā)模式是以小團(tuán)隊(duì)為單位的單獨(dú)“作戰(zhàn)”,每個(gè)團(tuán)隊(duì)不超過7名員工。每個(gè)團(tuán)隊(duì)都可以自己決定開發(fā)什么樣的游戲產(chǎn)品,然后以最快的速度推出公測版,如果不受歡迎,就立刻放棄,尋找新的方向。這種開發(fā)模式使Supercell能非常快速和敏捷地找到玩家喜歡的方向,從而更容易開發(fā)出能夠迎合玩家需求的游戲產(chǎn)品。

而Supercell之所以能夠支持多個(gè)團(tuán)隊(duì)快速、敏捷地推出高質(zhì)量的游戲作品,其強(qiáng)大的中臺能力功不可沒。因此,在拜訪Supercell的旅程結(jié)束之后,馬云決定對阿里巴巴的組織和系統(tǒng)架構(gòu)進(jìn)行整體調(diào)整,建立阿里產(chǎn)品技術(shù)和數(shù)據(jù)能力的強(qiáng)大中臺,構(gòu)建“大中臺,小前臺”的組織和業(yè)務(wù)體制。

當(dāng)然,Supercell的研發(fā)模式并不是什么革命性的創(chuàng)新,絕大部分硅谷公司也有類似的模式:本來就不大的公司被分成若干個(gè)小組。這樣做的好處是各小組可以快速決策、研發(fā)并將產(chǎn)品推向市場,而不需要重復(fù)開發(fā)游戲引擎、數(shù)據(jù)分析、服務(wù)器等后臺基礎(chǔ)設(shè)施和服務(wù)。這里,“游戲引擎”可以看作業(yè)務(wù)中臺,“數(shù)據(jù)分析”可以看作數(shù)據(jù)中臺,“服務(wù)器等后臺基礎(chǔ)設(shè)施”可以看作PaaS/IaaS平臺,也就是有些文章中所說的技術(shù)中臺。

實(shí)際上,雖然硅谷并沒有“數(shù)據(jù)中臺”這一叫法,但硅谷的公司早已自然形成了中臺的意識。從早期的中間件(Middleware)、面向服務(wù)的架構(gòu)(SOA)到后來的IaaS/PaaS/DaaS平臺、微服務(wù)(Microservice),都有中臺思想的影子,都來源于避免重復(fù)造輪子、快速迭代、數(shù)據(jù)驅(qū)動、業(yè)務(wù)驅(qū)動這些硅谷工程師文化的核心理念。國內(nèi)類似的概念“技術(shù)中臺”就源于中間件、PaaS平臺。但是這種中間件、平臺、中臺的功能一般并非由一個(gè)頂層設(shè)計(jì)得出,而是一步步建立起來的。在硅谷的企業(yè)中有一個(gè)非常重要的理念就是不要做“過早優(yōu)化”(Premature Optimization),也就是說,不要在不需要的時(shí)候進(jìn)行優(yōu)化。一定要先完成功能再優(yōu)化,因此不需要中臺的時(shí)候沒有必要刻意建一個(gè)大而全的中臺。當(dāng)然,在建設(shè)數(shù)據(jù)中臺的不同階段可以使用不同的技術(shù),只要保證中臺建設(shè)能夠平滑過渡即可。

下面就來簡單介紹筆者曾在硅谷負(fù)責(zé)建設(shè)的兩個(gè)典型大數(shù)據(jù)項(xiàng)目,看看它們和數(shù)據(jù)中臺的關(guān)系。

1.1.1 藝電的“數(shù)據(jù)中臺”改造

EA(藝電)是一家總部位于硅谷的知名跨國游戲公司,創(chuàng)造和發(fā)行了眾多深受游戲迷喜愛的游戲,例如《FIFA足球》《Madden橄欖球》《NHL冰球》和《NBA籃球》等體育游戲,令軍迷們狂熱的《戰(zhàn)地》及《星球大戰(zhàn)》系列游戲,以及經(jīng)久不衰的《模擬城市》《模擬人生》《植物大戰(zhàn)僵尸》等游戲。

這些游戲都是由EA位于全球各地的游戲工作室開發(fā)的,但是游戲里所涉及的數(shù)據(jù)分析工具卻是由位于硅谷總部的大數(shù)據(jù)團(tuán)隊(duì)提供的。在有統(tǒng)一的大數(shù)據(jù)平臺之前,EA的每個(gè)工作室都需要開發(fā)自己的大數(shù)據(jù)平臺,編寫自己的大數(shù)據(jù)分析程序。各個(gè)工作室的數(shù)據(jù)能力參差不齊,數(shù)據(jù)質(zhì)量得不到保證,有的產(chǎn)品甚至完全沒有數(shù)據(jù)分析。各個(gè)工作室之間無法共享數(shù)據(jù)和用戶資源,總部在匯總?cè)瘓F(tuán)的營業(yè)數(shù)據(jù)時(shí)也費(fèi)時(shí)費(fèi)力。這可以說是一個(gè)非常典型的數(shù)據(jù)孤島的情況。

2011年,EA開始逐步建立全局大數(shù)據(jù)平臺(類似于具有數(shù)據(jù)中臺功能的平臺),將各個(gè)工作室的數(shù)據(jù)逐漸匯聚到這個(gè)全局大數(shù)據(jù)平臺上,并為各個(gè)工作室提供統(tǒng)一的數(shù)據(jù)分析和數(shù)據(jù)服務(wù)工具。各個(gè)工作室不再需要自己維護(hù)大數(shù)據(jù)平臺,也無須自己雇用大數(shù)據(jù)平臺開發(fā)人員,它們既可以使用集團(tuán)的數(shù)據(jù)分析系統(tǒng)得到自己需要的業(yè)務(wù)報(bào)表,又可以使用系統(tǒng)提供的反欺詐、產(chǎn)品推薦等服務(wù),專注于業(yè)務(wù)使它們能夠快速推出新產(chǎn)品。同時(shí),由于各個(gè)游戲的數(shù)據(jù)得以打通,用戶數(shù)據(jù)得到統(tǒng)一,EA可以構(gòu)建更全面的用戶畫像,幫助工作室更精準(zhǔn)地為用戶提供個(gè)性化服務(wù),提升用戶體驗(yàn)。而且,集團(tuán)總部能夠快速且自動地獲得全局的運(yùn)營信息,而無須等到各個(gè)業(yè)務(wù)部門提交月度報(bào)表之后再手工合并和審核。

通過大數(shù)據(jù)平臺的建設(shè),在2012年和2013年被評為最差勁體驗(yàn)游戲公司、營收逐年下降的EA,一舉華麗轉(zhuǎn)身,2014年被評為最佳體驗(yàn)游戲公司之一,2015年更是創(chuàng)下43億美元的營收歷史新高。

本書作者之一宋文欣作為主要技術(shù)和團(tuán)隊(duì)負(fù)責(zé)人帶領(lǐng)了EA大數(shù)據(jù)平臺團(tuán)隊(duì)的組建以及該平臺的設(shè)計(jì)和建設(shè)。第16章將詳細(xì)描述其類似于Supercell的平臺的建設(shè)歷程。

1.1.2 Twitter的數(shù)據(jù)驅(qū)動

Twitter是硅谷社交三駕馬車之一,其陌生人/公開社交與Facebook的熟人/私有社交、LinkedIn的職場社交都對互聯(lián)網(wǎng)產(chǎn)生了極大影響。這三駕馬車出現(xiàn)于2006~2008年,在時(shí)間上與此相耦合的一個(gè)現(xiàn)象是大數(shù)據(jù)的發(fā)展。Facebook成立于2004年,Twitter成立于2006年,LinkedIn成立于2002年(但發(fā)展期是2006~2010年),而作為大數(shù)據(jù)的啟動項(xiàng)目,Hadoop的首發(fā)時(shí)間是2006年。

熟悉大數(shù)據(jù)早期發(fā)展歷程的業(yè)內(nèi)人士都知道,雖然Hadoop起源于Google,由Yahoo!開源,但是Facebook、Twitter和LinkedIn卻是硅谷早期推動大數(shù)據(jù)發(fā)展的核心力量,Hive、Pig、HBase、Mesos、Kafka、Spark、Storm、Thrift、Presto、Parquet以及其他很多現(xiàn)在廣泛使用的大數(shù)據(jù)組件,都是由這三家公司開源或提供最早的企業(yè)級應(yīng)用和支持的。究其原因,除了這幾家公司的工程師文化和對開源的推崇之外,更重要的是實(shí)際業(yè)務(wù)的數(shù)據(jù)驅(qū)動需求,因?yàn)樗鼈兌夹枰ㄟ^分析海量的數(shù)據(jù)來推動產(chǎn)品研發(fā)、用戶拓展和核心營收的增長。

以Twitter為例,整個(gè)公司的管理都基于數(shù)據(jù)驅(qū)動的理念,而其底層支撐是一個(gè)全局共享的大數(shù)據(jù)平臺。從CEO需要的BI部門實(shí)時(shí)業(yè)務(wù)報(bào)表、廣告部門的精準(zhǔn)定位、產(chǎn)品部門的個(gè)性化推薦,到用戶拓展部門的增長黑客技術(shù)、反欺詐部門的異常監(jiān)控、研發(fā)部門的實(shí)時(shí)產(chǎn)品反饋、運(yùn)維部門的智能運(yùn)維,相關(guān)的數(shù)據(jù)應(yīng)用都通過統(tǒng)一的數(shù)據(jù)工具運(yùn)行在同一個(gè)大數(shù)據(jù)平臺之上。

整個(gè)平臺中的數(shù)據(jù)能力共享和復(fù)用隨處可見:產(chǎn)品部門研發(fā)的用戶畫像可以被廣告部門用來精準(zhǔn)定位目標(biāo)客戶,社交圖譜被用來實(shí)現(xiàn)用戶拓展;反欺詐部門的機(jī)器人識別功能被廣告部門用來識別惡意點(diǎn)擊,被BI部門用來精確統(tǒng)計(jì)日活用戶;廣告部門開發(fā)的實(shí)時(shí)數(shù)據(jù)處理體系被產(chǎn)品部門用來提升推薦的實(shí)時(shí)性;諸如此類。

公司從2011年的300人發(fā)展到2014年的4000人,大數(shù)據(jù)平臺從80臺服務(wù)器的單純Hadoop集群擴(kuò)展到8000臺服務(wù)器的核心數(shù)據(jù)處理平臺,都沒有出現(xiàn)數(shù)據(jù)孤島、應(yīng)用孤島及重復(fù)造輪子的問題。

更為重要的是,因?yàn)橛辛藦?qiáng)大的數(shù)據(jù)能力核心平臺,Twitter的產(chǎn)品迭代速度得到大幅提升。在2011年以前,開發(fā)和發(fā)布產(chǎn)品的流程非常冗長,產(chǎn)品經(jīng)理需要到各個(gè)部門調(diào)研可以使用的數(shù)據(jù),并協(xié)調(diào)數(shù)據(jù)的生產(chǎn)化問題。在產(chǎn)品推出之后,需要專門的數(shù)據(jù)工程師支持,定制單獨(dú)的數(shù)據(jù)看板和報(bào)表才能拿到產(chǎn)品的反饋。在大數(shù)據(jù)平臺逐漸完善之后,產(chǎn)品經(jīng)理可以直接在平臺上探索現(xiàn)有的數(shù)據(jù)和各種API,與研發(fā)人員合作使用各種數(shù)據(jù)服務(wù)快速形成產(chǎn)品原型,然后通過數(shù)據(jù)平臺提供的測試框架快速發(fā)布測試,在發(fā)布后可以直接通過平臺提供的數(shù)據(jù)看板查看用戶反應(yīng),而無須自己編寫程序。整個(gè)產(chǎn)品的開發(fā)和迭代流程從以月計(jì)改為以周計(jì),活躍用戶數(shù)也從2011年不到1億增長到2014年接近3億。

本書作者之一彭鋒作為Twitter架構(gòu)師委員會中負(fù)責(zé)大數(shù)據(jù)體系的高級架構(gòu)師,在大數(shù)據(jù)平臺的建設(shè)中負(fù)責(zé)架構(gòu)設(shè)計(jì)和項(xiàng)目審計(jì),經(jīng)歷了從80臺機(jī)器的Hadoop集群到8000臺服務(wù)器集群的整個(gè)建設(shè)歷程。本書會穿插介紹Twitter大數(shù)據(jù)平臺建設(shè)的一些思路和經(jīng)驗(yàn)。

主站蜘蛛池模板: 三河市| 吉安市| 新源县| 五台县| 莫力| 永登县| 岳池县| 启东市| 交城县| 满洲里市| 湟源县| 德阳市| 太仆寺旗| 昌宁县| 遂溪县| 龙门县| 山东| 车致| 内黄县| 渭南市| 厦门市| 文成县| 石河子市| 台东市| 安岳县| 宣武区| 周口市| 乐亭县| 瑞金市| 建始县| 东源县| 哈密市| 怀来县| 德惠市| 平度市| 于田县| 灵石县| 榆社县| 涡阳县| 惠安县| 调兵山市|