- 云原生數據中臺:架構、方法論與實踐
- 彭鋒 宋文欣 孫浩峰
- 5856字
- 2021-04-30 12:38:46
2.4 數據中臺如何為企業賦能
雖然上一節介紹了數據中臺在一些行業里的應用場景,但是很多管理者和開發者對于數據中臺到底是如何工作的,還只有個很模糊的概念。這一節就從互聯網企業的視角,看看數據中臺是如何為各個部門賦能的。
2.4.1 組織架構
很多企業在羨慕阿里巴巴、字節跳動等企業擁有全局數據能力和快速迭代能力的同時,卻發現自己現有的架構無法滿足建立全局數據能力的要求。伴隨著粗放式的管理成為過去式,人口紅利逐漸消退,煙囪效應造成部門墻、數據孤島,數據維護成本增加及數據價值發掘難度增大,企業數字化運營的壓力越來越大。
在阿里巴巴的模式下,業務部門必須用數據中臺團隊提供的數據能力。圖2-2展示了阿里的技術中臺、數據中臺、業務中臺與各個業務板塊的關系。根據這張圖,我們可以設想,如果中臺出現問題且無法及時解決,業務部門的運作將會受很大影響。那么,業務部門為什么要冒險去嘗試類似數據中臺這樣的新架構?如果沒有馬云的全力支持,很難讓阿里巴巴的業務部門冒著業務受影響的風險來嘗試這個新架構。而且,并非所有公司的技術團隊都如阿里巴巴般強大,并非所有的公司都能像阿里巴巴一樣強勢要求業務部門無條件配合。這就產生了一個問題,對于一般的企業來說,究竟應該如何打造類似于數據中臺的能力?

圖2-2 阿里巴巴數據能力共享示意圖
實際上,數據中臺復用的這些能力并不一定要由專門的數據中臺部門來抽象和提供,也可以由業務部門來提供。比如在Twitter,用戶分析部門做用戶畫像,反欺詐團隊做識別機器人和惡意賬號的API,完成之后分享接口,其他部門也可以使用。因此,建設數據中臺并不一定要像阿里巴巴一樣重組機構,設置一個專門的中臺團隊,將一些通用能力劃分給這個團隊管理。但如果一個企業想要建設符合自身需求的數據中臺,那么按照企業的組織架構來規劃數據中臺就很有必要。因為數據中臺的目標是實現高效的數字化運營,使企業中絕大部分人員能夠用數據來支撐自己的日常工作,所以了解數據中臺在這些組織架構中的運作方式、選擇最適合自己的中臺組織架構,將對企業規劃數據中臺的建設很有幫助。不過需要強調的是,這種由下而上的抽象和共享雖然很常見,但也不是萬應靈丹,還必須由相應的工具和流程來支撐。
下面,我們以一般互聯網企業為例來說明數據中臺如何為各個部門賦能。
一般而言,在一個互聯網公司中我們會看到如下部門設置。
·決策部門
CEO、COO、CFO、CTO、CIO等。
·業務部門
·產品部門:產品決策、設計
·運營部門:產品運營、會員運營、用戶增長等
·銷售部門:銷售、客戶服務
·市場部門:渠道、推廣、商務合作
·財務部門:預結算、資金管理
·研發部門
·IT部門:公司內部IT、產品運維
·產品研發:架構、開發、測試
·大數據部門:提供數據能力支撐
下面我們看看企業的各個部門是如何使用數據中臺能力來提高工作效率、達到更好的工作效果的。
2.4.2 決策部門
在數字化運營的企業里,數據對于決策層的重要性不言而喻,日益普遍的CDO(首席數據官)和CDS(首席數據科學家)職位的設置就是很好的證明。2015年,美國政府將來自LinkedIn的數據科學家DJ Patil任命為白宮的CDS,就是希望他在互聯網企業的數據經驗能夠幫助政府和其他行業做出更科學的決策。對于企業的管理決策層而言,數據中臺可以為其賦予五大能力。
(1)快速智能的商業決策支持
數據中臺能夠為管理決策層提供全局、多維度的報表來反映各條業務線的情況,比如告訴管理決策層哪個廣告渠道帶來的轉化率最高,并快速提供可視化報表。除了傳統的業務報表之外,數據中臺還能夠利用全局的數據整合能力提供超出傳統數據倉庫的智能和全局商業洞見。例如,在整合了用戶行為、銷售管理、供應鏈數據之后,數據中臺可以提供類似于“某個地區供應鏈問題造成用戶活躍度顯著下降”的自動報警功能,這種功能在傳統的商業報表中是很難事先定義或者自動發現的。還有一個例子是,企業決策部門經常需要判斷現有系統是否能夠支持以及能夠多快地支持某個產品,這時,數據中臺提供的數據能力全景視圖是非常關鍵的。
(2)精細化的運營和管理
實現每個產品線的數字化運營標準,對全公司進行高效的數字化運營。例如每個產品都必須有量化的運營指標,必須進行A/B測試等;對運營數據進行自動分析和報警;形成完善的數據標準和數據應用資產體系,打通各條業務線的數據,最大限度發揮數據的價值,并在做出重要決策的時候能夠快速得到數據的支持。
(3)產品線的快速迭代
在數據中臺的支撐下,新產品能夠利用現有的數據能力快速上線,而且能夠利用現有的數據積累加快推廣和實施的過程,比如實現各條產品線和各個部門之間的協同與市場拓展,快速滿足市場需要。舉個例子,產品經理在設計一款新產品時,需要判斷目標用戶與現有用戶的重合度以及其在目標區域的分布來決定產品的推廣方式。同時,上線之前還需要做A/B測試,上線之后必須馬上拿到性能反饋,而且這些功能最好能夠充分利用現有工具快速實現。這些都需要通過數據中臺打通不同部門之間的數據協調、前后端數據來實現。
(4)內部數據能力的共享和復用
解決重復造輪子的問題。通過數據中臺,管理決策層可以清晰看到公司目前有哪些數據資產,哪些業務已經有了數據、應用和接口,如何提升某條業務線的運營效率,還有哪些數據需要收集、處理和分析。同時,還能夠避免重復造輪子,及時發現冗余或者無用的數據。比如,在雙12需要向中年用戶進行推銷活動的時候,可以復用雙11向年輕人進行推銷活動開發的服務,并且只需微調即可快速上線,無須重新開發。不過,需要注意的是,在強調內部數據能力的共享和復用時,還要關注各部門快速自主迭代和全局統一規劃的矛盾。
(5)完善的ROI管理
大數據項目通常需要大量資源,因此我們經常會看到巨大的開銷和不清晰的部門和項目分配。為了最合理地使用資源,確保核心業務的性能,我們需要數據中臺為每個數據應用進行精確的ROI規劃和管理。
以上功能會隨著數字化運營程度的不斷提高而日益完善,但是企業管理決策層對這些能力的重視和理解肯定是數據中臺項目的一個核心驅動力,這也是我們說數據中臺是個“一把手”工程的原因。
公司管理層一般以何種形式來使用這些能力?在宏觀上,當決策層需要做數據支持的決定時,會有很多關于市場、產品、用戶、人員、資源量化的問題,這些問題應該由數據中臺快速、準確、全面地回答。一個CEO曾這樣向我們解釋他們公司需要建設數據中臺的原因:“每次需要實現一個業務功能時,我們的IT部門都可以在一兩個星期內做出反應;但每次我有一個數據問題時,他們都要花上四到五個星期才能給我一個解決方案。這個時候我就意識到應該有個系統的數據解決方案了。”
在具體形式上,一般都會有專門服務于決策層的數據分析師(團隊),所有決策層的問題由這個數據分析師轉化和分解成具體業務指標的查詢,并將各個業務部門的數據指標進行匯總整理,然后以管理層最容易理解的形式呈現出來。這個數據分析師的角色有時就由CDO或CDS來承擔,這是因為只有對公司的全局業務和具體數據模型有相當深刻的了解,才能保證數據及其產生結果的準確性。一般情況下,在轉化和分解決策層的問題時如果發現有些問題很難回答,這其實就是發現了現有數據系統的不足和缺失,這個時候就需要CDO或CDS來改進和完善公司數字化運營的機制。
在工具方面,管理層有時會使用通用的數據工具,而更多的時候數據平臺團隊會為其定制包含核心指標的可視化看板、實時/定時報表以及一些工具。例如,在Ask.com早期使用大數據平臺取代傳統BI的時候,最先實現的就是每天早上的定時報表(包含CEO最關心的一些通用運營指標以及重要市場活動的每日更新)、每個星期一的市場營收周報(按可配置的多維度分析)和用戶畫像報告以及一些重要市場活動的實時數據分析看板(管理層可以隨時查看)。一般來講,這個層次的工具很難有通用產品,其形式和數據的使用是高度個性化的,而且會隨著市場的變化而變化,因此最好由專門的團隊來支持管理層的數據需求。但是,一個好的底層架構可以讓這個定制開發流程更快捷,讓數據的準確性、實時性和可解釋性有更好的支持。
2.4.3 業務部門
數據中臺能夠為業務部門和IT研發部門提供的主要功能可以根據一個產品的生命周期來劃分。產品生命周期理論是美國哈佛大學教授Raymond Vernon于1966年在其《產品周期中的國際投資與國際貿易》一文中首次提出的。產品生命周期(Product Life Cycle)是產品的市場壽命,即產品從進入市場到被市場淘汰的整個過程。產品一般要經歷開發、引進、成長、成熟、衰退幾個階段。
以互聯網產品為例,對于一個具體的產品來講,其生命周期基本可以劃分為前期調研→立項→需求研發→開發→測試→發布→運營。對于一家公司來講,必須快速應對變化,這就要求其對產品的生命周期有更精細的掌控。但是在一個充分數字化運營的環境中,產品的迭代周期會越來越短,傳統的瀑布式開發流程已經在很多地方被拋棄,快捷開發、敏捷迭代逐漸成為主流。這時,數據中臺就會承擔起決策依據的重擔。
對于業務部門來講,它們對數據中臺的需求貫穿了整個產品生命周期。數據中臺能夠為業務部門帶來如下能力。
·獲得市場洞見:通過對現有用戶和市場數據的分析,了解市場和用戶的情況。
·預測產品的市場:在將產品全面推向市場之前了解市場可能的反饋。
·監控產品的性能:在產品推出后快速了解產品運營的各種指標。
·持續跟蹤用戶行為及反饋。
·自動發現市場的異常并快速響應。
上述大部分功能涉及數據的全面整合和持續集成,這些功能以自助工具的形式提供給各個業務部門。例如,我們可以匯總用戶在所有產品里的行為,生成全面的用戶畫像,并根據用戶畫像給用戶打上標簽。然后,運營人員可以使用標簽體系定位到某個特定的用戶群體,并針對這個群體采取相應的市場營銷方式,如發送促銷郵件或通知等。
實際場景:產品的決策
在Twitter的產品迭代過程中,數據平臺起到了核心作用。從產品想法的產生、這個想法的初步驗證,到實現一個可觀察到的概念驗證(POC)、產品的上線,再到產品性能的持續追蹤,業務部門都離不開數據平臺提供的功能。一個新產品想法可能有很多來源,比如對競品和用戶行為數據的分析、用戶的反饋或者產品經理的靈感。有了想法之后,產品經理要做的第一件事就是量化這個產品可能會產生的影響。例如,一個產品經理想做一個有關電影推文的IMDb集成,為對電影感興趣的用戶提供更好的體驗。在開發這款產品之前,產品經理可以到數據平臺上看一下產品推薦部門做的用戶畫像,看有多少用戶可能會對電影感興趣,然后到廣告部門提供的數據里看這些用戶點擊廣告的概率有多大,最后到用戶增長部門提供的數據里看看喜歡電影的用戶人數最近的增減情況。有了這些數據之后,產品經理可以很快判斷這個產品能否為公司帶來顯著的用戶或營收增長,而不是靠拍腦袋決定要不要開發這款產品;還可以對投入的人力和資源有一個大概的估算,讓公司在立項的時候有一個更好的決策依據。
不過,并非各個業務部門需要的所有數據功能,數據中臺都能馬上提供。這時業務部門可以獨立開發和測試自己需要的功能,只需符合數據中臺要求的數據標準即可。這些功能將會呈現在數據能力全景地圖里,其他部門可以直接使用。例如,數據分析中有一個常用功能是過濾掉來自某些固定IP段的請求,因為這些IP段一般都是由機器人、合作伙伴或內部使用的。維護這個網段的工作往往是從反欺詐部門先開始的。反欺詐部門將這個網段列表以及相應的數據服務API做好之后,其他業務部門的數據分析或數據應用也可以使用,因此它們的應用就沒有必要重新開發和維護該功能了。更重要的是,通常所有部門必須使用統一的數據功能,例如上述過濾網段功能必須全局統一,否則統計的口徑就會出現差異。
2.4.4 研發部門
產品研發部門希望能集中精力在業務邏輯的開發上而無須考慮數據處理的細節,因此數據中臺應當具備與DaaS(Data as a Service)平臺相似的能力:
·需要的數據都能夠隨時獲得,并且能保證數據的可用性及正確性;
·要有方便的數據處理流程,有一套標準,能夠很方便地進行數據處理;
·要有數據服務,提煉出有價值的數據后,能夠通過數據服務將其開放出來進行共享和使用;
·要有數據應用,能輕松地進行A/B測試、做大屏、進行數據監控等。
在開發業務應用的時候,研發部門一般會有更多數據方面的要求,也就是數據的建模以及對業務邏輯的還原。它們會考慮產品上線之后的數據分析需求,并在開發的時候加入相應的數據埋點、數據記錄和日志條目。但是,研發部門不需要擔心這些記錄的數據是如何采集、存儲和匯總的,這些都應該是數據中臺自動處理的工作。
如果研發部門的數據記錄機制符合數據中臺的要求,那么數據中臺可以提供自動或半自動的數據匯總、測試、監控功能。當然,這需要借助一些內部框架。例如,在Twitter內部的數據平臺中,如果業務部門的數據是按照標準方式記錄的,那么數據就可以自動對接到一個A/B測試框架中,系統上線后數據中臺可以自動進行A/B測試、產生報告,并產生標準的監控大屏。
在具體形式上,一般大數據平臺部門應該提供一個類似于“數據驅動應用開發標準和SDK”的文檔和一個類似于“數據驅動應用工作臺”的Web工具。業務部門按照這個開發標準來設計記錄數據的建模,然后按SDK中的接口安排好數據的記錄,一般是將數據按指定格式寫到一個指定的端口或者文件,后臺的大數據流水線就會按照協議自動采集、匯總、分析這些數據并產生預制的報表。研發部門可以到“數據驅動應用工作臺”上查看數據的情況和具體的報告,如果有特殊或者定制的需求,也可以使用相關的工具進行自助的ad-hoc分析。
2.4.5 大數據部門
在數據中臺的建設中,大數據部門處于核心位置,但是大數據部門的工作除了搭建大數據基礎能力平臺之外,更要側重于全局的數據能力統一管理和賦能。
傳統大數據團隊的主要任務一般如下:
·安裝和運維Hadoop、Hive、Spark、Kafka這些大數據基礎組件;
·提供ETL工具的運維支持,有時候幫助業務部門寫一些查詢,進行一些查詢的優化;
·提供大數據平臺集群用戶的管理、權限的分配及數據的管理與備份等;
·負責大數據系統的運維、擴容和升級,幫助業務部門解決系統問題。
而在數據中臺的運營中,大數據部門除了上述工作之外,還需要建立數據標準并確保數據標準的執行;
·提供自助的數據工具供各個業務部門使用;
·開發支持業務系統的數據處理框架、測試框架、數據分析框架,避免各個業務IT部門重復開發;
·確保各個業務部門能在數據平臺上發布、共享它們的通用數據能力;
·提供數據應用發布、運維、更新的全生命周期管理;
·精細化運營整個大數據平臺,確保每個數據應用的ROI都得到追蹤。
這些工作對大數據團隊的技能要求提高了,而且數據和業務的結合是全方位的,對數據平臺的擴展性、穩定性、實時性、可用性有了更高的要求,這也是本書要著重介紹的內容。
- Hands-On Data Structures and Algorithms with Rust
- 劍破冰山:Oracle開發藝術
- Spark大數據分析實戰
- Effective Amazon Machine Learning
- 卷積神經網絡的Python實現
- R數據科學實戰:工具詳解與案例分析(鮮讀版)
- 揭秘云計算與大數據
- 數據庫原理與應用(Oracle版)
- 深入淺出Greenplum分布式數據庫:原理、架構和代碼分析
- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- SQL Server 2012數據庫管理教程
- 區域云計算和大數據產業發展:浙江樣板
- R Machine Learning Essentials
- 改進的群智能算法及其應用
- Mastering Java for Data Science