官术网_书友最值得收藏!

1.2 什么是數據中臺

阿里巴巴提出的數據中臺源于Supercell的實踐。從上面介紹的兩個典型硅谷大數據平臺的實踐來看,它們的思路及效果與Supercell的“數據中臺”類似:中臺提供數據能力的共享和復用,前端業務部門可以快速獲得全局的數據洞見及現成的數據工具,快速推出由數據支持的產品。

那么,數據中臺到底與我們常說的大數據平臺有何區別和聯系?要回答這個問題,首先必須明確地定義數據中臺這個概念。

1.2.1 數據中臺建設的目標

要定義數據中臺,首先要明確數據中臺建設的目標。雖然數據中臺有新瓶裝舊酒的嫌疑,但是阿里巴巴提出的數據中臺要解決的問題還是清晰且真實存在的:

·各個部門重復開發數據,浪費存儲與計算資源;

·數據標準不統一,數據使用成本高;

·業務數據孤島問題嚴重,數據利用率低。

思考試驗 以上問題都是真實存在的,但如果我們的大數據平臺沒有這些問題,還需要數據中臺嗎?

根據數據中臺要解決的問題,我們可以確定數據中臺建設的終極目標。數據中臺首先是一種IT系統,而IT系統建設的最終目標是服務企業,因此數據中臺的建設遵循我們常說的以業務為導向的路徑。

雖然企業的發展目標多種多樣,例如阿里巴巴的目標是“讓天下沒有難做的生意”,騰訊的目標是“以技術豐富互聯網用戶的生活”,但是這些大目標都有一個共同的子目標,即最高效地實現資源的合理配置和利用,創造最大的企業利潤,簡單來講就是精細化運營,開源節流。從最早的會計系統,到計算機普及時代的信息化建設,到現在的大數據、數字化轉型、智能化,都是服務于這個目標的。特別是在網絡時代,很多產業形成贏家通吃的局面,企業更需要比競爭對手先行一步,在激烈的市場競爭中占據先機,獲取更高的利潤。

因此,建設數據中臺的最終目標是通過高效的數字化運營,實現“快速市場響應,精細化運營,開源節流”。數字化運營是讓企業在市場競爭中取得相對優勢的必要手段,其目標是讓企業做到以下幾點:

·比對手更早洞察市場的動向;

·比對手更了解用戶的反應;

·比對手成本(包括生產和管理成本)更低;

·推出比對手的產品更符合用戶需求的產品;

·比對手更快地將產品推向市場;

·比對手更快地迭代產品。

值得注意的是,這里的重點是相對優勢,也就是與市場常態相比的優勢。例如,如果市場中的參與者都采用粗放式管理,那么率先實現信息化的企業就比其他企業更有優勢。實際上,信息化已有近30年歷史,不同行業的信息化水平有些差異。例如,銀行、保險這些主要與數字打交道的行業的信息化水平相對領先,而制造業、農業的信息化水平則相對滯后。一般來講,相對優勢都是針對本行業而言的,因此信息化和數字化的落地程度主要與行業相關。

在完成初步的信息化之后,如果想比其他企業更有優勢,企業就需要有更強大的信息化系統,也就是大數據系統,其建設初衷是獲得更多的數據以及更快、更全面的市場反饋。然而現在的情況是,很多企業雖自稱擁有大數據系統,但其效果并不是很好,于是就產生了數據中臺建設的需求。

不管叫不叫數據中臺,所有數據工具的建設目的都是從數據中提取價值來支持更有效的數字化運營。這里所說的數據價值又被稱為“可指導行動的洞見”(Actionable Insight),其重點之一是可指導實際的商業行為,重點之二是洞見,即在建設這個數據工具之前無法得到或發現的知識。二者缺一不可:如果不能指導實際行動,創造實際價值,那么這個數據工具以及從中產生的知識就是無用的;如果不是新發現的知識,那么就沒有必要花大價錢來建設這個數據工具。說到底,數據工具的建設要用ROI(Return On Investment,投入產出比)來衡量。數據中臺的出現,很大程度上就是因為原有大數據系統建設的ROI不盡如人意。

根據所指導的行動的領域,“可指導行動的洞見”可分為兩類(參見前面數字化運營的目標)。

·商業智能(Business Intelligence):也叫數據驅動的決策,也就是要有對業務更深層次、更全面、更多維度、實時性更強的洞見,從而指導機構的運營。這是給實際數據使用人員使用的,一般表現形式為各種報表、看板、BI查詢工具、大屏等。

·數據驅動的應用(Data Driven Application):可以實現由數據驅動的業務應用(參見3.2節對數據驅動的介紹)。與傳統固定行為的應用不同,數據驅動的應用通過分析各種數據(用戶行為、市場數據、第三方數據)來決定應用的行為。其中一般都會涉及對數據的復雜分析,需要使用機器學習、人工智能(AI)算法來從數據里發現模型,然后用模型來指導應用行為。

我們一般說數據的用途就是BI和AI,這也是傳統大數據平臺和數據倉庫建設的目的。從這個角度來講,數據中臺與傳統大數據平臺和數據倉庫的建設目的是一致的。

但是數據中臺有一個比傳統大數據平臺和數據倉庫層次更高的要求:實現數據能力的全局抽象、共享和復用,從而提高數據價值實現的效率和ROI。可以說,數據中臺強調的是大數據平臺和數據倉庫的建設方式。雖然大數據平臺和數據倉庫也強調數據能力的抽象和復用,但是它們并沒有從方法論、工具和流程上強調如何支持和要求數據能力的抽象、共享和復用。傳統大數據平臺提供的主要是各種大數據組件的安裝和運行,數據倉庫建設主要集中在業務的建模和數據的清晰度上,二者的功能都是數據中臺需要的。數據中臺需要在它們之上提供整套工具、流程和方法論來實現數據的抽象、共享和復用。基于上面的分析,我們可以確定數據中臺建設的目標:

通過提供工具、流程和方法論,實現數據能力的全局抽象、共享和復用,賦能業務部門,提高實現數據價值的效率。

1.2.2 如何實現數據中臺建設的目標

在明確了數據中臺建設的目標之后,下面我們以EA的實踐為例,看看數據中臺如何實現這些目標。

第一,實現這些目標必須有相應的數據能力,也就是從數據中產生價值的能力。

如前所述,數據的價值一般從兩方面體現:數據驅動的決策(BI)和數據驅動的應用(AI)。從原始數據到數據產生價值,中間有一個很長的鏈條,需要的工具都是提供數據能力所必需的。數據中臺(包括底層的大數據平臺和數據倉庫)應該提供高效的工具來支持這個鏈條中的所有功能。例如,在EA,各個游戲工作室都會用統一的大數據平臺來完成用戶行為分析、反欺詐、動態定價等一系列關鍵的數據驅動的功能。這些功能無法用預先設計好的算法或程序來完成,必須根據實際數據采取相應行動才能實現。這些都是數據能力的典型代表。

第二,要實現這些目標,必須完成全局的數據匯聚和治理。

這就需要有統一的數據規范,使數據生產者、數據消費者通過這個規范達成共識。例如,EA大數據團隊花了一年時間整理出像字典一樣厚的數據規范,形成連接生產數據的游戲工作室與消費業務數據的分析部門的橋梁。比如,游戲里有一些簡單的代碼,表示的是戰車、手榴彈、手雷、機關槍或沖鋒槍等武器,而業務分析部門通常是看不懂的。另外,各游戲工作室傳上來的游戲數據格式都有統一的規范,有一些是通用的基礎指標,還有一些是不同游戲自帶的特殊數據。有了這種統一而詳細的數據規范標準,各業務分析部門就可以輕松整合所有的游戲數據,形成公司層面的數據資產,然后對其進行挖掘和分析,得到各自需要的有價值數據。

第三,企業必須高效完成從匯總好的數據到價值的轉換,需要進行數據能力的抽象,然后實現能力的共享和復用。

這個過程有兩種實現方式。一種是由大數據部門做頂層設計來實現。舉例來講,不少游戲都存在作弊玩家,他們通過創建僵尸賬號來收集游戲幣,然后在黑市上轉賣這些游戲幣,這會給游戲公司帶來巨大損失,每個月可能會損失超百萬美元。而大數據部門就要通過頂層設計來解決這類欺詐問題。EA大數據團隊設計了一個反向索引的分析系統,各游戲工作室從黑市上買了游戲幣以后,只要把這些游戲幣的ID輸入系統里,就可以通過反向索引查到并清除掉收集這些游戲幣的僵尸賬號。這個數據能力是各個工作室都需要的,雖然它們的需求會有細微差異,但是大數據平臺將其中的共同點提取出來,形成一個通用工具,各個工作室可以配合自己的特定參數來使用。這就是一個從頂層設計來抽象數據能力,幫助業務部門解決問題的例子。

另一種方式是一個業務部門開發供自己使用的服務,但發現其他業務部門也需要,于是就對這種服務進行抽象,以供全公司復用。舉例來講,FIFA游戲推廣團隊有一個需求是,每天通過電子郵件向特定用戶群體推送打折券。以往,需要進行很復雜的查詢才能得到目標用戶的ID,要從幾百萬個用戶中篩選出幾百個,而且一天可能只能做一次。FIFA游戲推廣團隊與大數據團隊合作開發了一套標簽系統,利用它可以快速定位這幾百個用戶。比如這個群體是美國加州的用戶,年齡在35~45歲,年收入為5萬~8萬美元,過去7天平均玩游戲的時間超過1小時,游戲內消費金額為2000~3000美元。確定這些標簽后,幾秒就可以完成層層過濾,鎖定目標用戶群體,然后可以很簡單地通過模板將打折券推送給他們,而且這樣的操作一天可以做十幾次。后來,別的業務部門也需要這個功能,FIFA游戲推廣團隊就將這個功能進行了擴展,供其他游戲推廣部門使用。這就是業務部門自行開發,然后進行抽象的例子。

第四,在實現數據能力的共享和復用的過程中,需要協調復用和效率的矛盾。

如果一個業務部門為了滿足其他部門復用某個服務的需求而做了大量工作,結果影響到自己的工作效率,這就得不償失了。這里首先需要有一套平衡的工具和機制,其次是要有能夠精確衡量數據能力的ROI,讓業務部門有動力共享它們的數據能力。

1.2.3 數據中臺的定義和4個特點

綜上所述,我們認為數據中臺可以如下定義:

數據中臺是企業數字化運營的統一數據能力平臺,能夠按照規范匯聚和治理全局數據,為各個業務部門提供標準的數據能力和數據工具,同時在公司層面管理數據能力的抽象、共享和復用。

數據中臺與傳統數據倉庫和大數據平臺的最根本差異,就是強調從工具和機制上支持對數據能力的全局抽象、共享和復用。應該說,數據中臺是建立在數據倉庫和大數據平臺之上的,讓業務部門可以更好、更有效率地使用數據的運營管理層。

因此,根據我們的定義,數據中臺需要具備以下特點。

1)能夠借助匯聚全局的數據為用戶賦能。

數據本身就是能力,從某種程度上講數據比上層的應用更重要,而且打通的全局數據所提供的價值將超過隔離的局部數據的總和。為了打通數據,在工具層,需要提供全局數據存儲、治理分析服務以及數據/應用治理和管理的功能;在業務層,必須讓每個業務部門能夠方便地依據標準提供相關業務數據,自動與其他部門的數據打通并匯總。從這方面講,這不是一個純技術問題,更多的是一個業務問題。例如互聯網公司要打造全局的用戶畫像,需要制定公司的業務相關數據/應用的標準,并要求各個部門的業務應用按照標準采集和存儲本部門負責的用戶信息,這樣中臺才能夠按照標準處理這些局部信息來形成全局的用戶畫像。從某種意義上來說,數據標準實際上也是數據能力的組成部分。

2)實現數據能力的抽象。

數據能力的抽象是數據中臺建設中的難點,如何盡可能抽象出通用的功能,又不使抽象的功能過于細碎,這是需要仔細考慮的問題。這個問題有點類似于微服務的拆分,也與編程里抽象出對外API有著異曲同工之妙,拆大了不好,拆小了也有問題。前面我們提到過可以采用兩種方式來進行數據能力的抽象:一種是頂層設計,從公司層面考慮數據能力的抽象;另一種是由業務團隊自主開發,當發現有復用需要時再來抽象。這兩種方式各有利弊,在很多時候可以混合使用,需要根據公司和業務的實際情況選擇。

3)可以通過工具體系讓企業各部門方便地共享抽象出的數據能力。

首先,數據能力的共享必須簡單,如果共享很麻煩,那么企業各部門數據的提供者和使用者就不會愿意使用這些功能,共享也就失去了意義。其次,共享的責權利必須要分清。這里涉及的角色有提供者、平臺團隊、使用者三方,而這三方的責權利劃分,例如,誰負責開發、誰負責維護、誰負責升級等,則決定了共享最終能否成功,因此這一點需要重點關注。

另外需要注意的一點是,應該提供相應的工具來支持這種區分,例如,提供衡量一個共享API所產生價值的量化工具,提供共享的績效對比和考察工具等,這些都是促使共享能夠被企業的所有用戶接納的重要因素。

4)可以高效地管理數據能力并加以復用。

第一,必須能快速發現可復用的數據能力,這樣才能在快速迭代時保證沒有重復的開發,因為只有知道自己有什么輪子,才能避免重復造輪子。為了系統地避免重復開發的情況,一般需要有一定流程的支持,例如Twitter通過自身的架構委員會來衡量哪些數據能力可以復用。除此之外,也可以由一些管理程序自動發現類似的數據和應用的復用。

第二,能夠協調復用和效率的矛盾。經常會出現這樣的情況,團隊A開發了一個功能,團隊B覺得可以用,但是需要做些修改,而團隊A暫時沒有資源做這件事,團隊B沒有時間等,只能自己再開發一個。所以,關于共享功能的后續開發一定要有明確的規則和責權劃分。

第三,能夠提高復用的效率。比如,如果團隊A共享了一個功能后,其他部門的人天天來找團隊A的人問這個功能怎么用,那么團隊A的效率就會受到很大的影響。因此我們需要考慮共享功能的規范要求,例如共享的數據和應用的文檔必須有一定要求。此外,共享的工具也必須提供迭代提升的功能,例如功能文檔的協同編輯功能。

主站蜘蛛池模板: 沈阳市| 枝江市| 兖州市| 潜山县| 荃湾区| 启东市| 辉县市| 澄江县| 保德县| 菏泽市| 沙洋县| 福泉市| 阿坝县| 高阳县| 宁安市| 盱眙县| 定兴县| 会泽县| 仙游县| 兴义市| 茶陵县| 惠州市| 佳木斯市| 土默特左旗| 武平县| 沭阳县| 体育| 格尔木市| 防城港市| 来安县| 重庆市| 电白县| 东城区| 汤阴县| 汕尾市| 金山区| 琼中| 礼泉县| 淮滨县| 满洲里市| 龙山县|