- 云原生數據中臺:架構、方法論與實踐
- 彭鋒 宋文欣 孫浩峰
- 6038字
- 2021-04-30 12:38:46
2.2 數據中臺的核心能力
數據中臺建設的核心思路是賦能業務部門,提供更好的數據能力工具,使業務部門能夠通過中臺提供的功能快速獲取商業洞見,從而快速提供數據驅動的業務產品。因此,脫離了業務應用,數據中臺的建設就是空中樓閣。我們在規劃數據中臺建設的時候,要有業務應用的場景,后續的迭代必須由真正的業務需求來驅動。
值得注意的是,雖然我們強調業務驅動,但是數據中臺提供的整體規劃和全局數據規范是必不可少的,否則一味求快,很有可能又會回到原來數據孤島、應用孤島的狀況。
那么如何真正實現業務驅動的數據中臺建設呢?下面我們介紹幾種業務部門所需數據能力的常見表現形式和實現思路,以及如何獲取商業洞見,如何利用實時數據報表實現精細化運營、快速決策,利用中臺能力快速開發新業務,為客戶提供個性化的服務,并在產品推出后快速獲得反饋。
2.2.1 全局商業洞見
商業洞見一般有如下幾種。
·通過分析市場行為,發掘新的商機和產品機會。一種可能的方式是從市場調研或公開信息中爬取所需要的用戶和市場行為數據進行分析,例如利用市場調研報告進行用戶情感分析。雖然這可能成為數據中臺的一個功能,但是在這里,我們主要側重于從現有用戶的行為里發現新的商機和產品機會。
·通過對現有產品的表現進行評估和判斷,提升其用戶滿意度及市場競爭力。例如,評估產品在各個細分年齡段、不同地區的用戶中的表現。
·對公司各個部門和功能的表現進行實時多維度評估,例如對每個業務部門各個維度的業績進展、重要經營指標的實時掌握。
·對具體業務的精準掌握,例如廣告投放效果的實時評估、下級經銷商的銷售情況、當前庫存和銷售情況相結合的預測報告。
這些商業洞見都需要有大數據平臺的支持。傳統的BI、大數據平臺、數據倉庫都能夠幫助我們減少創造新業務和產品過程中的不確定性。而數據中臺與它們的區別在于,數據中臺需要匯集全公司、全渠道、多數據源的全局信息。它不局限于某一個業務系統、某一個事業部的數據范圍,必須要有全局打通、統一治理的數據。因此,有可能每個事業部都有自己的大數據平臺,但是一個公司只會有一個數據中臺。
不可否認,這對于一些企業有一定困難。當管理決策人員、業務部門負責人或產品經理不能獲得某些數據時,他們一般會要求BI分析師生成其所需要的商業報表,而以下是經常出現的場景。
·所需要的數據不在當前系統中。例如需要的數據沒有采集,還要重新采集數據;或者需要埋點的地方沒有設計好埋點,還要修改業務系統來增加新的數據點。
·所需要數據的準確性需要很長時間來判斷或處理。這一般是因為數據處理鏈條太長,涉及各種不同的系統。如何確認數據的準確性,如何系統性、持續性地監控數據的正確性是很重要的問題。
·報表制作需要專業人員來完成,大家排隊等待數據工程師跑數據。運營、產品、市場等各部門都要通過數據工程師獲取數據,整個流程主要是溝通需求→分析數據源→升級數據采集系統→開發程序→提供結果。在這樣的流程中,大數據部門很容易成為瓶頸。當然,數據需求方可能因數據獲取速度慢、等不及而自己拍腦袋做決定,最終導致產品迭代效率低下。
·報表只能看到宏觀數據,在分析問題的時候作用不大。一般的報表能夠讓團隊負責人了解宏觀數據(如銷售額、用戶數等),這對他們有一定的幫助。然而宏觀數據在分析有些問題時就無能為力了,比如為什么昨天的活躍用戶數暴跌20%。這時我們需要進行更深入、更精細的分析,如按照渠道、地域等維度對數據進行分解,判斷某渠道或某地域是否有大波動,并進行多維度、細粒度的下鉆分析等,這樣才能快速定位問題,在解決問題時有的放矢。
·無法跨越數據孤島去獲取自己需要的數據。一些集團化企業的孤島效應尤為明顯。做大數據分析需要與不同部門溝通協調,獲得審批權限,等待數據審批完成后才能統計數據,整個周期較長,而且這些數據可能因為沒有統一ID而無法打通。從企業自身數據的價值角度來說,應消除部門間的數據孤島,讓數據協作更順暢。
總的來說,建設數據中臺的目的就是系統性地解決這些問題,使所有業務人員和決策者都可以快速獲得他們需要的數據洞見。
實際場景 鞋類品牌百麗通過全流程化的數據改造,將一雙鞋要經歷的供應鏈、設計制造、門店決策、會員管理等流程統一納入數據化流程,真正實現了數據驅動。例如,百麗子公司滔搏運動的一家線下門店根據慣有邏輯,認為男性流量會大于女性,因此店內的男女鞋鋪貨比為7:3。而在通過搜集進店流量、顧客店內移動線路和屬性并形成店鋪熱力圖之后,卻發現進店女性客流占總客流的50%以上。于是這家門店增加了30%的女鞋陳列,改動后的單店女鞋銷售額增長了40%。
2.2.2 個性化服務
個性化服務是指通過對客戶需求的精準分析提供針對性的產品和服務。例如,我們可以使用標簽體系來精準定位一個用戶群體,然后針對這些用戶進行一些特定操作,比如促銷活動或郵件觸達等。這就是一種個性化服務,隨著智能手機、移動應用、5G、IoT的普及,人們的消費習慣越來越多樣化和個性化,如何整合生產系統、供應鏈、營銷系統以快速滿足用戶的個性化需求成為很多企業的重要課題。
除了這種從全部用戶中定位一批用戶并進行特定操作之外,還有一種常見的個性化服務是基于用戶畫像的產品推薦。最常見的例子有Facebook、Twitter、今日頭條根據每個用戶的閱讀歷史推薦他們可能最感興趣的文章,Amazon、淘寶、美團根據用戶的購買歷史來推薦他們最有可能購買的產品,Netflix、YouTube、抖音根據用戶的觀看歷史來推薦他們最有可能觀看的視頻。
實際場景 可能不如前面的例子廣為人知,Google和百度也可以基于用戶的搜索歷史提供個性化的推薦結果。搜索引擎經常會遇到一詞多義的問題,例如,用戶搜索“Saturn”,應該為其返回什么?Saturn可以指土星、車、電影,甚至游戲主機,如果搜索引擎對用戶一無所知,那么可能就會返回一般化的相關信息;而如果搜索引擎知道這個用戶最近一直在搜索購車信息,他很有可能正打算購買一輛Saturn汽車,那么就應該返回附近銷售Saturn汽車的車行信息。Google開發Gmail的初衷之一就是可以通過用戶的郵件對用戶的興趣有更深入的了解,從而能更精準地為用戶提供搜索結果。這也是不同產品之間數據互用的例子。
除了上面提到的有關互聯網、電商企業的個性化服務,其他行業也有越來越多的個性化服務需求。
·銀行業需要為用戶提供定制的金融產品,如理財產品、信用卡產品。波士頓咨詢公司(BCG)的一項調研發現,“22歲到49歲年齡段客戶的理財需求最強烈,他們中有四分之三的人希望銀行能夠像他們的私人‘虛擬理財教練’。毫不意外,絕大多數客戶希望銀行也可以像互聯網一樣為他們提供個性化的體驗。”
·保險業需要為客戶提供最適合的、高度可定制的保單。在《德勤2016年保險市場分析報告》中,未來場景中的第一項就是個性化的保險,其必備條件是“先進的預測分析能力,以支持復雜定價和風險管理,可獲得行為、場景和其他關聯數據,通過實時數字渠道在適當時刻聯絡客戶,從而提供前瞻性建議”。這正是數據中臺應該提供的能力。
服裝行業需要根據消費者的喜好和身材數據定制衣服、鞋帽。例如,服裝定制提供商衣邦人可以通過用戶地區、個人數據提供特定時間節點的特定產品促銷;傳統鞋類零售連鎖集團百麗在進行數字化轉型之后,在線下門店里采集用戶數據以提供更精準的產品推薦服務。
提供個性化產品推薦的系統一般需要包含如下功能組件。
(1)用戶畫像
對于每個用戶,我們都想知道其年齡、性別、地區、行業、身體狀況、收入狀況、興趣愛好、社交屬性等,并能根據需求快速獲取。而在傳統行業里,獲取用戶畫像是非常困難的,因為用戶在線下用現金交易,交易過程中不會涉及任何個人信息。互聯網企業在這方面有著先天的優勢,瀏覽器Cookie的使用,允許像Google這樣的企業在不需要創建任何用戶系統的情況下收集用戶的信息。在越來越多的交易轉移到線上和移動端之后,企業收集用戶信息的手段就會越來越多,連線下企業也逐漸開始使用類似于會員制銷售的方式積累用戶信息并形成用戶畫像。打通各個業務子系統、將分散的用戶信息形成一個完整的用戶畫像,這是很多企業建設數據中臺的一個目的。
(2)產品畫像
產品畫像是指產品的一些屬性標簽。這里的產品是指廣義的產品,是用戶可以消費的一個實體單位。例如,對于今日頭條,每篇文章就是一個產品;對于Twitter,每條推文就是一個產品;對于電商,每個SKU就是一個產品。這些產品都必須有一些自己的標簽。例如,對于Twitter的每一條推文,其主題(體育、娛樂等)就是一個標簽,其作者分類(大咖、媒體人員、學生等)也是一個標簽,其發出的地區、推文表現的情感都是可能的標簽。一般來講,每條廣告就是一個產品,不過其標簽一般是由人工設定來匹配指定用戶人群的。值得注意的是,有的產品畫像比較容易獲得,例如SKU對應的3C產品;但有些就需要非常復雜的人工智能系統來判別,例如,精準獲得視頻的標簽可能會成為一個單獨的服務和行業。
(3)匹配服務
匹配服務一般是雙向操作,一個是給定用戶,找到最符合該用戶畫像的產品(如文章、視頻、推文、廣告等);另一個是給定產品,找到最適合這個產品的用戶群體并推送給他們。匹配服務的精度是很多互聯網公司的核心競爭力,因為用戶在產品上花的時間和精力是有限的,向用戶推送一個其不感興趣的產品相當于浪費了一次銷售機會,也降低了用戶的產品體驗。如果每次推薦的產品(包括廣告)用戶都感興趣,用戶體驗和銷售額就都會提高。匹配服務需要使用一定的機器學習模型和行業知識圖譜,而這些一般需要專門的團隊來開發。
(4)反饋服務
提高匹配服務的成功率是個性化服務的關鍵,當然,這是建立在精準的用戶畫像和產品畫像的基礎上的。但要在數據或算法不是很完善的時候冷啟動,這就要靠反饋服務了。我們推薦給用戶的哪些產品用戶感興趣?哪些產品用戶完全忽視?用戶在我們推薦的文章或視頻上停留了多長時間?為什么我們的模型精確度不高?我們在用戶畫像、產品畫像、匹配服務中的哪一個步驟出了問題?反饋服務將這些問題的答案準確地記錄下來,作為整個系統的迭代基礎并持續衡量這些業務指標。
那么個性化服務與數據中臺有什么關系呢?
第一,很多集團企業需要從各個部門獲取和打通用戶數據,這樣才能形成比較全面的用戶畫像,以及在集團范圍內推廣個性化服務;
第二,用戶畫像服務應該以一種可重用的數據服務方式被很多部門同時使用;
第三,個性化服務的反饋和最終效果評估需要從各個部門的業務數據中統一提取。
上述功能組件都需要數據中臺的支持。
[1] 《個性化銀行——銀行提升競爭力的利器》:http://media-publications.bcg.com/BCG-GC-DigitalBCG-bundle-CHN-Apr-2019.pdf。
2.2.3 實時數據報表
對于業務部門來講,任何一個產品推出后他們最想知道的就是市場對產品的反饋。對于不同的行業,市場對產品的反饋形態有一些共性,也有很多行業特定的屬性。例如,一般來說,產品的銷售額肯定是最直接的反饋,而對于很多互聯網產品來講,用戶注冊數、用戶活躍度、用戶留存也是很重要的指標。對于線下銷售,除了銷售額之外,了解門店中用戶的興趣點、購買用戶的細分、市場手段的觸達情況也能幫助精細化管理整個銷售流程。
因此,為了監控能夠反映整個企業或單個產品運營情況的最重要指標,很多企業都會建設業務部門可以使用的實時業務數據報表及可視化工具。例如,一個可視化的實時看板,也就是俗稱的可視化大屏,可以展示全局業務的關鍵指標以及實時發生的重要信息,如圖2-1所示。不可否認,有不少大屏的項目是面子工程,但是一個能夠顯示最新核心指標、易用的可視化工具是非常重要的。正所謂“一圖勝千文”,一個好的實時數據看板可以讓管理者快速掌握企業的運行狀況,讓一個部門、一個項目組的人員能夠快速了解當前產品的運行情況,對任務及其優先級有一致的理解。在許多高科技公司,不少部門會購買專門的大顯示屏,并將其懸掛于工作區域,顯示本部門的一些核心指標或者產品的運行情況。大家在工作之余,一抬頭就能知道公司和產品的運行狀況。

圖2-1 產品實時數據報表
在建設數據中臺的同時,產品部門需要的各種數據功能在理想情況下應該可以實現無編程或者低代碼配置。如果一個產品在上線之前經過數據委員會的審核,確認其數據采集規格符合要求,那么產品在上線后基本可以得到實時反饋。實時報表流程中的大部分組件可以提供可配置的SDK或界面,在應用發布的時候指定日志和數據的位置、需要采集和展示的指標,整個流水線就可以運行起來,將各種關鍵指標采集到最終展示它們的位置。最后顯示的大屏可以以模板的方式提供基礎展示,只在有特別顯示需求的時候才需要定制開發。
2.2.4 共享能力開發新業務
數據中臺的目的是數據能力的抽象、共享和復用,其中的共享和復用并不只是出于省錢的考慮而提出的,在很多時候它們是開發新業務的驅動力。在阿里巴巴和今日頭條的案例中,我們看到它們在企業內利用現有用戶數據快速落地新業務的強大能力。賦能企業內各個業務部門,幫助其快速理解現有數據,使用現有數據開闊思路、開拓新業務,是數據中臺建設的一個重要目標。
實際場景:Twitter的Hack Week
Twitter每個季度或每半年會組織一次Hack Week。在這個星期,日常的項目都會被放下,員工可以自由組隊,在頭四天里開發出一個Web或移動應用,到星期五統一評比,從中找出比較適合公司發展的項目并將其融入現有產品中。這些應用中有很多是基于現有的用戶數據或產品開發的,例如基于位置和用戶興趣的“附近的人”推薦,基于實時數據流的突發事件監測和推送,基于用戶興趣和公眾熱點的智能信息流等。在早期大數據平臺不是很完善,很多團隊需要大數據組同事手把手的指導才能實現應用原型。隨著公司的發展,這項工作越來越困難。在Twitter的大數據平臺比較完善之后,絕大部分Hack Week團隊可以自己找到所需要的數據并根據文檔使用這些數據,在四天內開發出一個完整的數據驅動型應用。(當然,完善的技術平臺的支持也是必不可少的,例如在云原生的平臺上,很多分布式開發的框架及應用的發布是非常容易實現的。)
經過Hack Week的鍛煉之后,很多產品經理理解了整個數據體系的使用和探索方式,從而大大加快了開發新產品原型的速度。產品經理可以利用平臺上提供的各種數據能力,像搭積木一樣快速完成一個原型,并通過A/B測試和產品性能監控方面的框架快速推出和驗證。例如,產品經理可以從大數據平臺的數據流接口獲取原始推文,從另一個數據流接口獲取其定位信息,從一個文本分析接口獲取其類型分析結果,從用戶畫像服務獲取其作者的興趣信息,從興趣圖譜服務獲取相關的興趣分類,然后通過實時流水線處理在附近地點有類似興趣的用戶群,并將結果推送給用戶。如此復雜的流程,完全靠自己開發是非常費時費力的,但由于可以重用各種數據能力,就能以很小的代價快速完成原型。這樣的迭代速度如果沒有數據中臺的支持,是不可想象的。
業務部門之間數據能力共享和復用的流程一定要根據企業的特定情況來制定。對于一些集團公司或者涉及較多線下業務的公司,由于業務模式差距較大,各個部門之間的數據能力共享和復用會比較復雜。例如,有線上網店、線下門店、多條業務線的企業在打通和復用數據時可能會比較困難。但是,在用戶行為和業務流程越來越數字化的當下,如何實現線上線下數據的打通,賦能各個業務部門,充分發揮數據的價值,應該是每個企業必須考慮的問題。
- LibGDX Game Development Essentials
- 數據庫基礎與應用:Access 2010
- MongoDB管理與開發精要
- 工業大數據分析算法實戰
- iOS and OS X Network Programming Cookbook
- Oracle 12c云數據庫備份與恢復技術
- 計算機應用基礎教程上機指導與習題集(微課版)
- 云數據中心網絡與SDN:技術架構與實現
- HikariCP連接池實戰
- MySQL DBA修煉之道
- Unreal Engine Virtual Reality Quick Start Guide
- 數據賦能
- Spring Boot 2.0 Cookbook(Second Edition)
- Node.js High Performance
- 云工作時代:科技進化必將帶來的新工作方式