- 云原生數據中臺:架構、方法論與實踐
- 彭鋒 宋文欣 孫浩峰
- 1661字
- 2021-04-30 12:38:51
5.5 數據中臺建設的人員規劃
在數據中臺的建設中,除了傳統的大數據團隊以外,還需要業務部門的積極參與。因為共享的數據能力是與業務相關的,而且開發和迭代的流程需要與各個業務部門、IT部門協調溝通,所以在建設數據中臺時需要對參與人員進行統籌安排。這也是我們在數據中臺的規劃過程中經常碰到的問題。下面列出了數據中臺建設過程中一般會涉及的人員及其主要職責。
·業務部門主管:深入了解業務流程和優先級,能夠將業務場景與數據對應,指導建模的流程。
·業務系統架構師:了解企業的系統架構、技術框架。
·業務流程工程師:對業務流程非常熟悉,通常是技術部門與業務部門的紐帶。
·數據工程師
·數據平臺工程師:通常有系統工程師背景,負責建設和運維數據平臺,安裝和運維各種大數據組件,以及保證數據平臺的性能和穩定性。
·數據開發工程師:以數據倉庫技能為背景,懂業務,負責建模、數據清洗和編寫ETL程序。
·數據應用開發工程師:以應用開發為背景,開發服務于業務部門的數據應用。
·數據中臺架構師:全面掌握數據平臺的功能,對公司的產品提出數據的支持和要求,負責公司產品與數據平臺的集成、與業務系統進行銜接的架構規劃以及公司的數據標準推動和把控。
·數據分析師:以統計學背景為主,能夠從數據中產生合理、準確的商業智能報表。
·數據科學家:以機器學習為背景,提供基于機器學習和人工智能的數據分析產品和結果。
·數據產品經理:負責公司內部數據能力的規劃和開發流程的協調,有時這個角色由數據架構師承擔。
圖5-1列出了以上主要角色與數據中臺各個組件交互的對應關系。

圖5-1 數據中臺團隊角色
由于建設階段不同,角色可能會有細微變化,如在數據中臺建設的早期階段,可能每個部門都有數據應用開發工程師、數據分析師、數據科學家,或者需要這些角色的參與。
數據中臺建設團隊的組織模式一般有兩種。一種是去中心化的數據中臺搭建模式,這種搭建模式下一般有一個數據平臺團隊來打造這個“數據中臺”,然后各個業務部門(一般都有自己的開發團隊)在這個平臺上開發和使用自己的數據應用。通過這個數據運營平臺,在有共享和復用需要的時候,各個業務團隊可以快速共享自己的數據能力。這種模式在硅谷比較普遍,好處是比較容易推進,因為數據中臺實際上分為兩部分:一部分是數據技術,這一部分最好由數據平臺團隊負責;另一部分是業務數據能力,這一部分最好由業務部門的人完成,因為他們最理解業務,并且業務也是經常需要迭代的。這種模式的難點在于數據平臺團隊的業績難以直接衡量,而且推行統一數據標準需要業務部門積極參與和配合,在業務部門比較繁忙的情況下難以協調。
另一種模式是組建一個專門的數據中臺團隊,并由中臺團隊來負責所有共享的數據能力的規劃和開發,它相當于公司內部的一個支持團隊,負責滿足其他部門的需求。這種模式的好處在于數據能力的規劃和實現比較直接,難點主要在于數據中臺團隊需要理解業務,在業務快速變化的情況下迭代速度不一定能跟上,而且數據中臺團隊會和各個業務部門產生一定的職能沖突。
表5-1列出了兩種模式的一些對比。
表5-1 集中式與去中心化的數據中臺實現對比


對于具體企業而言,到底應該采用何種模式來實現自身的數據中臺,主要看企業所處的階段以及企業的真實需求,必須實事求是,根據企業的實際情況來做出更優的選擇。實際上,數據中臺與技術中臺不一樣,數據是跟著業務走的,而技術的共性比較多。讓數據中臺部門天天跟著業務部門學習數據顯然不現實,Twitter、Facebook、Airbnb等硅谷公司的做法是,大數據部門提供足夠好用的工具,賦能業務部門共享數據能力。而有些公司的情況又不一樣,它們將某項能力抽取出來由專門的組來負責。這兩種方式各有優勢,因此要視公司的具體情況而定。而國內有些行業的大數據平臺建設往往是搭建一個Hadoop集群且僅供該部門內的項目使用。其他部門需要大數據應用時,由于沒有一個很好的大數據平臺架構,使用這個部門的大數據平臺會非常困難,最后只能再獨立搭建一個Hadoop集群。這樣就會產生大量的數據孤島和應用孤島。因此,最好在建設大數據平臺之初就要求各個部門共享集群,每個數據應用都必須接入現有的平臺。
- Python絕技:運用Python成為頂級數據工程師
- Effective Amazon Machine Learning
- SQL查詢:從入門到實踐(第4版)
- UDK iOS Game Development Beginner's Guide
- 數據庫程序員面試筆試真題庫
- Python金融實戰
- 智能數據時代:企業大數據戰略與實戰
- 新基建:數據中心創新之路
- SQL應用及誤區分析
- Unity 2018 By Example(Second Edition)
- 中文版Access 2007實例與操作
- Access 2010數據庫程序設計實踐教程
- 信息融合中估計算法的性能評估
- 利用Python進行數據分析(原書第2版)
- 數據應用工程:方法論與實踐