- 企業大數據系統構建實戰:技術、架構、實施與應用
- 呂兆星等
- 11430字
- 2019-01-05 02:09:09
2.2 大數據職位構建體系
在團隊組建過程中,科學地定義職位體系直接影響到大數據實施的效率和質量,由于大數據的創新性和嚴謹性,會有一批新的崗位,例如首席數據官、大數據解決方案架構師、大數據采集工程師,大數據研究員等;同時,也會強化原有崗位的新生命力,例如網絡工程師、算法工程師、系統架構師、咨詢顧問、數據庫管理與開發等。整個職位架構體系,如圖2-5所示。

圖2-5 大數據職位構建體系
2.2.1 基礎平臺類
大數據基礎平臺共分為硬件平臺和軟件平臺兩大類別,硬件平臺包括服務器、操作系統和網絡維護等工作,主要由網絡工程師負責;軟件平臺包括Hadoop運維、數據倉庫管理、軟件系統運維等工作,由Hadoop運維工程師、數據倉庫管理員和系統管理員負責。
1.網絡工程師
網絡工程師在計算機行業是一個非?!肮爬稀钡穆殬I,主要目的是維護多臺計算機及其外部設備,保障計算機在資源共享和信息高速傳遞的穩定性。在大數據環境下,由于大數據系統是多臺(幾十、幾百甚至成千上萬臺)服務器分布式環境,并且具有并行計算、實時傳輸的特性,對網絡傳輸、安全、讀寫效率及并發的要求更高,其中共涉及多項十分重要且復雜繁瑣的問題:機房網絡安全問題、跨機房服務器集群之間網絡傳輸問題、開發人員操作失誤風險規避問題、跨機房硬件穩定性保障問題、磁盤高速讀寫問題、跨局域網的分布式集群傳輸效率問題、分布式集群服務器IP及網絡配置問題。
隨著大數據技術、IPv6標準、物聯網、移動互聯網技術的快速發展,使得對于新型網絡工程師的人才和技能要求也越來越多,由于上述每項技術對網絡和硬件的要求側重點都不一樣,也因此而細分出多個發展方向,對相應的技能要求的側重點也不同,例如網絡安全類、數據存儲類、架構設計類、移動網絡類、網絡效率類等。
2.Hadoop運維工程師
作為大數據產業下的一個新型職位,Hadoop運維工程師是大數據系統穩定運行最重要的保障,其主要職責是維護高性能的Hadoop分布式數據存儲系統,并為業務系統提供穩定的數據訪問服務,開發新接口和維護原有系統。
由于Hadoop技術生態組件絕大部分是由Java語言實現并且基于Linux操作系統運行的,對于該職位來說,首要要精通Java編程和Linux操作系統;其次要精通Map/Reduce運行機制、Hadoop集群的硬件資源(CPU、內存、存儲)配置與管理、Hadoop各組件(如HDFS、Hive、HBase、Impala等)的運行原理、集群組件監控、集群節點故障解決方案等;另外還需要懂得如何保證數據安全、數據存儲效率、計算效率、運維效率的優化與提高等。如果覺得Hadoop集群的性能差時,絕大部分責任是運維工程師對Hadoop的了解太少,Hadoop的效率沒有被發揮出來。
3.數據庫運維工程師
數據庫運維工程師在公司發展的不同階段有著不同的職責與定位。工作內容包括負責數據庫的運營和維護,包括數據庫的安裝、監控、備份、恢復等基本工作,并需要覆蓋產品從需求設計、測試到交付上線的整個生命周期,在此過程中不僅要負責數據庫管理系統的搭建和運維,更要參與到前期的數據庫設計、中期的數據庫測試和后期的數據庫容量管理和性能優化。
當企業數據倉庫中的數據量達到了一定量級時,對數據源的監控和保障數據倉庫的穩定性是一個必要的工作,傳統的企業級數據倉庫一般都會建立在My SQL、Oracle等結構化數據庫之上,數據庫運維工程師為了提高數據庫工具和服務的有效性,會選擇合適的軟件和硬件工具,并使用各種工具實時監控數據庫性能和數據錄入程序,管理數據安全和隱私并創建和分配新的數據庫,從執行層面優化數據庫性能提高查詢和處理能力,建立數據備份、數據庫故障排除和恢復機制確保信息得到保護和備份。在企業級大數據生態體系下,Hadoop數據倉庫成了數據處理挖掘的主力軍,所以下一代數據庫運維工程師還需要精通各種Hadoop技術生態組件的存儲運行機制和執行管理命令(如Map/Reduce、Python、Scala、Java等)。最后,數據庫運維工程師特別重要的一個工作是確保所有的數據符合法律規定,對整體數據質量要定期做完整的報告并反饋給工作團隊。
4.系統運維工程師
和企業傳統的系統運維工程師一樣,大數據系統運維工程師需要維護所有業務系統的功能運行,并監測系統的所有功能是否正常,維持系統現狀,協助解決新的和現有的系統問題形成系統運維自動化流程。在業務系統進行測試和升級過程中,實現所有的目標,保持對所有系統升級之后的新技術維護,并確定系統運維的長期目標,根據運行的實際情況改進維護策略。除以上“已發生”類的問題之外,對“未發生”類的問題要及時監測,分析所有系統的升級和應用程序,確保遵守所有計劃要求,設計新上線的業務系統解決方案。監測和分析業務系統的運行指標,并保持最佳性能,與管理人員和社區成員協調落實各項業務活動,并確定所有服務器配置。最后,由于大數據生態體系的技術組件更新升級頻率非常快,且新技術發展異常迅速,要求所有大數據系統運維工程師必須擁有非常高的行業知識更新和學習能力。
2.2.2 數據管理類
數據管理類崗位中的管理所針對的對象是數據,而非職能崗位中的管理角色。數據管理類崗位包括首席數據官、數據管理員和數據安全管控師。
1.首席數據官
隨著大數據的不斷發展,企業對于數據的依賴也越來越強,當企業內部的數據類型和數據用途越來越多時,需要一個“數據管理者”從數據全場景和流程方面進行整體規劃和管理,一個大數據新的工作崗位應運而生——首席數據官(CDO)。
該職位的職責包括:與數據所有者和數據管理員共同為內部和外部創建數據管理策略并且實現數據的準確性和制定工作流程的需求目標,定義大數據戰略,設計多階段實施路線圖。建立數據管理策略及標準,創建并領導數據管理團隊,監管組織內的數據質量工作,配合CIO/CTO和IT部門協同管理和完善數據管理策略的實施,并負責企業信息數據管理的預算和數據相關系統的審核。
另外,作為技術高管需要有團隊成員梯隊建設能力,帶領團隊技術探索不斷創新,推進企業技術升級、技術架構完善以及數據倉庫和商業智能解決方案的發展,協助業務開發團隊提供售前活動和招標書,幫助評估和計劃項目,協同CIO/CTO管理技術和項目團隊。
2.數據管理員
對于一般的公司來說,數據管理員的工作可能由數據庫運維工程師來兼任,從部署操作系統,到數據庫安裝、設計和部署監控,防止漏洞和攻擊、主數據管理、權限管理與審核等,而大數據環境下對數據管理員工作的技能要求更加精細。
對數據管理員的崗位要求包括指定并實施數據管理策略、協調和執行數據管理解決方案、數據庫權限管控三大方面,所以該項職位的主要任務是:了解企業內部的數據需求信息,并將其傳送給數據團隊的其他成員,深入了解數據現狀并收集相關資料;引導業務指標的制定和記錄,協助數據分析師分析現有的報告并確定整合指標,上報首席數據官,參與制定數據管理與實施計劃,指導數據庫需求文件的準備;在數據管理計劃實施的過程中,擔任ETL和系統開發工程師的顧問,協助數據分析師評估任務,分析現有的報告,并幫助識別潛在的數據來源和數據庫等;在數據管理與實施計劃落實完成后,保障公司核心業務實體數據(例如客戶、供應商、商品、組織單位、員工、合作伙伴、位置信息等)的一致性、實時性和精確性,成為企業內部的數據“交通樞紐”。
3.數據安全管控師
數據安全是互聯網行業中的一個永恒的話題,無論是對于單位還是個人,數據安全都是至關重要的,如果數據不慎丟失或者泄露,都會造成重大影響。
一般情況下企業的數據安全管控由數據運維工程師或者數據管理員負責,由于計算機和互聯網的影響越來越大,人們日常生活中的網購數據、通信數據、身份信息數據不斷膨脹,同時公司企業的主數據、業務數據、銷售數據、財務數據也在不斷增長,所以數據的安全性就越發重要,在互聯網大數據時代需要數據安全管控師對系統數據安全進行嚴格規范和控制。
影響數據安全的因素包括計算機硬件損壞、工程師的操作失誤、黑客入侵、病毒感染、企業內部發生的數據盜竊等,數據安全管控師的任務,是通過各種安全策略和安全防范手段,在這些問題發生之前制定良好的安全方案防患于未然,主要安全策略包括:協助首席數據官制定規則加密電子文檔數據內容、細化數據權限控制讀寫刪除操作、制定數據備份流程機制、制定組織結構成員數據權限關聯及分級授權機制、制定數據及文檔集中管理與分發規范、制定數據通信安全規范、制定數據倉庫訪問和操作權限等。
2.2.3 技術研發類
技術研發類崗位指的是針對大數據相關系統、軟件、產品和功能進行的開發,而非IT系統的開發。由于大數據類的開發是一個相對完整的工作鏈,并且具有特殊應用需求和場景特征,因此涵蓋了幾乎與IT系統相同的職能崗位。技術研發類崗位包括大數據架構師、數據倉庫架構師、大數據開發工程師、數據采集工程師、數據倉庫開發工程師、系統開發工程師、算法開發工程師。
1.大數據架構師
作為大數據技術平臺成功落地的重要保障,大數據架構師在大數據技術發展之初就已經奠定了必不可少的角色基礎,該職位主要負責Hadoop技術解決方案的整個生命周期的解決方案確定并進行引導,包括:大數據需求分析、平臺選擇、技術架構設計、應用設計和開發、應用測試和部署等大數據實施全流程的跟蹤,并在實施過程中帶領技術團隊,為設計和開發大規模集群的數據處理系統提供技術和管理。
由于角色的重要性,通常情況下該職位應該擁有重點院校計算機相關專業的碩士及以上學歷且至少5年以上Java編程經驗,精通Java原理和Hadoop、Hive、HBase、Impala、Spark等大數據技術生態體系,熟悉常用的數據挖掘算法,如邏輯回歸、決策樹、關聯規則、序列模式、時間序列、SVM、貝葉斯、聚類等,以便做更好的架構方案選型。除以上技術要求外,該崗位聚焦于互聯網涉及的各領域平臺架構設計,可能會涉及電商平臺、虛擬化、云計算、數據分析挖掘等。
作為一個或多個領域的系統架構專家,更要面向未來:設計領先的軟件架構,洞察所在領域的系統技術發展趨勢,提出新的系統架構理念,主導架構技術項目開展架構原型的驗證,保證未來新產品的軟件架構具有領先的架構競爭力;改進已有產品的軟件架構,分析行業內重點產品的軟件架構,識別軟件架構設計方面的問題,提出解決建議和方案,并指導改進;提升團隊的軟件架構設計能力,時刻洞察技術發展動態,指導技術開發人員及時升級系統技術。
2.數據倉庫架構師
數據倉庫的開發和管理在大數據時代顯得尤為重要,相關的數據庫管理、運維和開發技術,將成為廣大BI、大型企業和咨詢分析機構特別看重的技能體現。而之前一般企業中的數據倉庫架構師都由數據部門開發經理兼任,同時數據倉庫團隊工作內容比較純粹,所以該職位可視數據倉庫量級和企業實際情況而定,由其他職位兼任或單獨設立都可。
數據倉庫架構師的主要責任有:數據倉庫的架構設計及數據集市建設,帶領團隊落地及后續的運維,負責各條業務線的數據整合方案設計及日志規范,數據分析指標體系建設及元數據管理,并要稽查和監控數據質量,數據報表系統及相關數據產品的研發和數據需求的溝通及數據開發項目管理。
在技能要求上,精通SOL、SSIS、SSRS和OLAP等進行數據庫及數據模型設計,如使用Oracle/HANA建立數據倉庫,熟悉Kettle、Informatic、Datastage、Data Service等ETL開發工具(目前很多ETL工具也支持Hadoop),了解行業內的各種數據倉庫應用案例和商業智能(BI)實時動態。如使用Hadoop、Storm、Spark建立數據倉庫,精通大數據分布式平臺技術,熟悉Java、Scala、Map/Reduce、Hive SQL、Spark SQL等技術。同時,根據企業數據倉庫技術發展的實際情況,可能需要使用Oralce與Hadoop相結合的方式完成工作。
3.大數據開發工程師
大數據相關的技術組件包括分布式存儲(結構化與非結構化)、緩存、查詢、計算(實時與離線)、監控與管理、資源調度等,為了保障各技術開發的專業性,一般以開發工作的內容進行劃分:Hadoop開發工程師(離線計算)、實時計算工程師、數據處理工程師、文本挖掘工程師(非結構化數據處理)等。
Hadoop開發工程師需要精通包括:HDFS、HBase、Hive、Impala、Zookeeper、YARN、Map/Reduce等在內的所有組件部署、調優與開發。Hadoop技術應用廣泛,開發過程中還會涉及Hadoop版本的快速迭代升級,需要和Hadoop運維工程師協同開展工作。
實時計算所涉及的技術包括Spark、Storm兩大核心組件,而Spark與Storm組件的開發語言都各自不盡相同,這無疑大大增加了實時計算工程師的開發難度,除了精通Java之外,還必須精通Scala(Spark是由Scala寫成)、Spark SQL和Spark Streaming。
以上技術都是針對結構化和半結構化數據的開發處理,非結構化數據的開發處理一直都是相對更繁瑣的工作。比如,文本挖掘工程師的工作是對非結構化數據進行抽取、解析、建立全文索引等,使非結構化數據轉化為有價值的結構化或半結構化數據。數據處理工程師主要負責分布式存儲與計算平臺中的數據處理與傳輸,承擔著“數據搬運工”的角色,不管是結構化或半結構化數據還是非結構化數據,一般都會使用到Kafka或MQ等組件進行數據的解析與傳輸。
4.數據采集工程師
數據采集工程師的主要職責是收集和處理海量原始數據,工作內容包括:腳本編寫、網頁獲取、調用APIs、編寫SQL查詢等。
由于數據源的存儲及展現方式不同,數據采集分為外部數據采集和內部數據采集,外部數據采集通常指的是互聯網網頁采集(也稱網絡爬蟲),工作任務是通過搜索引擎網絡爬蟲相關技術和正則表達式,從抓取下來的HTML頁面數據中提取網頁數據信息,這要求工程師必須精通互聯網內容搜索產品(例如百度、谷歌)的設計和架構,熟悉搜索引擎、互聯網網頁及反爬蟲技術的工作原理,熟悉Linux操作系統,具備搜索引擎開發的研究能力,使用到的開源技術工具有:Nutch、Heritrix、larbin、Html Parse、Scrapy、Lucene等。
內部數據采集是指存儲在企業內部數據系統(如Oracle、My SQL、No SQL、Log日志)中的主數據/業務數據和企業網站/App端中用戶行為數據的采集。企業內部數據采集的工作任務是通過數據庫抽取相關技術(Java、Sqoop、Golden Gate、Canal)把存儲在企業數據庫系統中的數據抽取出來,重新整合、同步與存儲;企業網站/App數據采集是通過JS/SDK等技術手段,把網頁/App端的用戶登錄、點擊、查看等行為收集起來,同步到后端的數據存儲系統中。
通過內部、外部數據采集到的數據最終都會存到分布式文件系統(Hadoop、Spark)中統一存儲,便于后續的數據分析與挖掘。這些工作要求工程師了解企業數據流通機制,精通Oracle、My SQL、No SQL等數據庫的工作原理和主流的大數據接入技術(Kafka、Storm、Flume、MQ、Spark Streaming),熟悉Nginx日志、算法設計、數據結構、Java和Scala等。
5.數據倉庫開發工程師
傳統數據倉庫開發團隊在企業技術崗位中屬于不太容易看到“效果”的團隊之一,而且所需的人數不太多。但是在進入大數據時代,代表著更多類型(尤其是非結構化類型)的海量數據不斷涌現,客觀上要求對數據進行實時采集、分析和傳輸,這就對基礎設施性能提出了嚴峻挑戰,尤其是對運維管理者數據倉庫開發和管理人員提出了更高的要求。
數據倉庫開發工程師除了需要基于Oracle/HANA開發外,還要基于三大不同類型的數據庫進行應用開發:分布式數據庫No SQL、Hadoop體系,分布式數據庫HBase/Hive和實時分布式計算框架Spark/Strom。由于No SQL、Hadoop、實時計算技術可供使用的ETL工具比較少,所以目前企業數據倉庫開發工程師和大數據開發工程師使用到的大部分技術是相同的,但數據倉庫開發工程師的工作更側重于數據層設計與開發、ETL流程開發和優化,完成結構層次合理、靈活可擴展的數據倉庫結構。同時,這些工作也都需要對Hadoop、No SQL、實時計算技術有深刻理解且對業務精通的人才能勝任。
6.系統開發工程師
大數據系統按應用類型分為數據可視化類與數據應用類。
可視化類系統包括:商業智能、數據監測、輿情監控、用戶畫像等,該類系統一般使用前端技術結合可視化組件開發,要求工程師精通Java Script、Ajax/JQuery、HTML、CSS等Web前端技術,以及數據可視化技能和工具,例如D3、Echarts、High Charts、Tableau等。熟悉各主流瀏覽器(IE/Chrome/Firefox/Safari)兼容性問題解決方案和Oracle、My SQL、Mongo DB、Hive、HBase等數據庫查詢能力,另外還需了解各種調試、抓包工具如HTML類、CSS類、Debug類等。
數據應用類系統包括:互聯網廣告精準投放系統(DSP)、精準營銷系統、征信/風控系統、個性化推薦系統、大數據管理平臺(DMP)等。該類系統除了會使用前端技術和可視化組件外,還需要結合大數據分布式算法、高并發查詢、負載均衡等技術,更側重Redis、Nginx、MQ、Zookeeper、Hadoop等技術。熟悉TCP/IP協議和多線程并發技術,同時也要兼具可視化系統開發所應用到的Web前端技術、數據可視化技術、瀏覽器兼容等。
7.算法開發工程師
算法開發工程師之前一直是一個比較“冷門”且“高深”的崗位,隨著大數據應用越來越廣泛,使得算法模型在企業大數據應用中越來越廣泛。由于每個行業的特性不同,數據模型在跨行業應用時可復用度不高。比如,金融行業應用數據模型進行金融產品的風險控制和反欺詐,建立并優化風險政策。電商及快消行業則應用數據模型進行用戶價值評分、偏好預測、商品關聯銷售和個性化精準推薦。但不管是什么行業,用到的算法是相通的(例如邏輯回歸、SVM、神經網絡、決策樹、貝葉斯等)。
大數據環境下的數據建模開發工程師,除了要求精通傳統建模工具SPSS/Modeler之外,還要精通R、Python、Hadoop、MLlib、Mahout等算法開發組件,了解大數據分析處理(Hadoop、HDFS、Map Reduce、HBase、Pig、Hive)等技術內部機制,熟悉Linux系統,熟練使用Shell/Perl/Python腳本。
2.2.4 產品設計類
項目產品類崗位通常是每個公司不可或缺的崗位,這些崗位是有計劃開發數據工作的基本前提,通常決定了一個產品或項目未來的方向和具體實施的概念定義。而項目產品類泛指數據項目工作的前端職位,含項目經理、產品經理、UI、UE等。
1.項目經理
項目經理的職能核心是項目宏觀管理者和協調者,也是項目實際的總策劃人和負責人。
項目經理主要側重于項目規劃、管理、協調工作,重點關注項目進度、質量、成本,通過管理控制項目風險并保證相關成果??缏毮懿块T進行定期溝通,確保公司內部信息和資源對稱;協調項目資源,保證項目正常推進。通過制定實施方法論和項目管理規范來進行整體項目把控,某些場景下的項目經理還會參與需求調研,引導客戶需求,編寫項目需求文檔和相應的技術規范文檔等細致工作。對實施完成的項目進行總結,并提供產品研發、項目管理建議。
不同行業的項目經理要求具有特定的從業背景和經驗,對于項目開發過程中涉及的管理方法、技術框架、操作規范等都有不同的要求。但較好的號召力、領導力、溝通能力、應變能力和管理能力是勝任該職位的基本前提。
2.產品經理
產品經理是微觀層面落實具體項目需求的關鍵推動者,也是輔助項目經理進行項目把控的關鍵,但從職能角度來看通常不具有實權,因此屬于典型的“有義務、無權利”的職位。
產品經理主要負責配合項目經理完成項目規劃、管理、協調以及規范和文檔制定工作,并負責數據相關項目內產品的規劃與設計,制定產品開發、設計、跟蹤和優化方案。在項目開展過程中需要保持與視覺設計、前端架構、前端開發等部門的溝通并保證產品需求的可理解、可實現、可執行性。根據公司規劃,設計產品設計文檔、原型設計文檔和產品交互原型設計,含界面、流程、功能、組件等。對于整體產品項目質量管理和進度管理,保證項目按照進度完成策劃、開發、測試和上線。
由于產品經理需要面對策劃、設計、開發、測試、上線的所有環節,因此較強的責任感、創新的工作精神、嚴謹的工作態度、較強的溝通能力和邏輯判斷能力是一個成功產品經理的必備素質。產品項目和生命周期管理的常用工具如思維導圖工具、產品原型工具、產品流程工具、版本管理工具、項目管理工具等的熟練應用是必備職業技能。
3.UI
UI也稱視覺設計師,主要工作側重于視覺效果設計,產品視覺效果的好壞主要取決于UI的審美水平和輸出能力。
UI的主要工作職責是把握視覺設計趨勢,分析產品特點,確定產品整體設計思路和風格;產品、網站、APP等具體產品形態的視覺形態策劃;產品、頁面、功能、圖標等視覺元素的可視化設計,與產品經理、前端工程師共同把握移動產品的用戶體驗。某些公司的UI可能還會負責廣告、營銷和包裝等宣傳物料的設計。
良好的想象力、較高的審美層次和色彩把握能力,熟練使用視覺設計工具如Photoshop、Illustrator、Corel DRAW是必備技能。
4.UE
UE也稱交互設計師,主要工作側重于交互效果設計。很多公司將UI和UE合并到一個崗位職責,總體負責產品的平面和交互設計效果。
UE主要負責維護和更新界面設計標準和規范,負責標準和規范的實施;產品、網站、APP的交互設計工作,分析產品特性和用戶的操作習慣和偏好,并設計交互流程、內容及界面;根據需求和用戶研究結果,完成界面交互行為和功能的改良,提高網站的易用性;對現有產品的可用測試和評估提出改進方案,持續優化產品用戶體驗。
在技能要求上,除UI中對于素質和必備技能的要求外,UE還需要了解設計主體(產品等)的商業邏輯、交互工程中的功能需求及信息因素關系,這對該崗位職責的要求更高。
2.2.5 數據挖掘類
數據挖掘類崗位通常是一系列崗位的統稱,因為不同公司對于該職位的定義和內涵界定不同。而數據挖掘由于是側重于應用的崗位,因此通常是圍繞某一業務或技術主體進行定義,例如會員數據挖掘、銷售數據挖掘、營銷數據挖掘等。
數據挖掘類崗位與算法開發類的崗位差異通常是模糊的,一方面由于數據挖掘需要特定的數據統計學、技術開發等特定技能要求,這與算法開發重合;另一方面數據挖掘由于既可以側重于算法挖掘和應用,又可以側重于典型場景的業務應用,因此也很難具體固化到某一種崗位角色。通常,該角色可定義為技術類崗位,也可以定義為業務類崗位,但前者居多。
整體來看,數據挖掘類崗位的主要職能包括以下幾個方面:
?負責完善數據挖掘工作體系,優化現有數據挖掘業務落地;
?負責完善數據挖掘流程、操作規范、標準和監督計劃;
?深入研究業內領先的技術思路,輸出具有創新價值的預研項目可行性分析報告及相關實驗數據;
?負責營銷(流量)、會員、產品、銷售、客服、供應鏈等公司數據的海量挖掘,并建立、維護和調優常用應用場景如惡意流量預警、庫存預測、會員活躍度、會員流失模型等;
?負責相關數據挖掘項目需求收集、項目制度建立、項目設計開發和結果輸出質量把控,通過數據挖掘結果驅動業務執行;
?配合技術進行數據挖掘模型開發和模型封裝,例如決策規則模型、預警模型、流失模型、效果標桿模型、客戶生命周期等的建立和維護;
?負責大數據下傳統機器學習算法的并行化實現及應用,并提出改進方法及思路;
?參與公司大數據架構,負責BI實施中的數據挖掘模塊算法研究、模型建立和優化,幫助實現數據挖掘和分析平臺的建設等。
數據挖掘類崗位對于職能的要求較高,除了具備統計、信息技術、數學等專業學歷外,熟悉主流數據庫,例如My SQL、Oracle、SQLServer、DB2等傳統結構化數據倉庫以及No SQL等非結構化數據庫;熟悉常用的聚類、分類、回歸、關聯、時間序列等監督式和非監督式算法;熟練使用SPSS Statics(2009年之后稱為PASW Statistics)、Clementine(12.0版本之后稱為SPSS Modeler或PASW Modeler)、SAS、R、Python、MLlib等數據挖掘工具中的至少1種,有數據建模經驗是從業必備技能。
注意
從某種意義上看,數據挖掘類崗位是數據真正從“數據”到“知識”再到“應用”的樞紐,因此是大數據崗位中的核心職位之一。但是,這種崗位通常只對于擁有“大數據”的公司才有意義,因為只有大數據才有“挖掘”的必要,而小公司由于體量小而導致數據量小而不具備挖掘的必要條件。
2.2.6 數據分析類
數據分析類崗位包含各種各樣的非“技術”類崗位,例如戰略分析師、數據分析師、網站分析師、用戶研究員、商業智能分析員等,這些崗位通常都具有特定的分析應用場景,因此大多數以應用場景來定崗定責。
1.戰略分析師
戰略分析師在很多公司也被稱為市場分析師,這是一個“高大上”的崗位,它的核心是提高對行業和競爭對手的認知,增加對公司決策層的戰略支持。
戰略分析師的具體職能通常是根據公司的戰略方向,輔助公司決策層(通常是O-Level)制定中長期發展規劃;根據公司規劃,協助各中心、各子部門制定戰略研究規劃并進行課題跟蹤和持續輸出;收集行業重要信息,包括重要盈利模式、重大技術革新、新技術發展趨勢、市場格局重大變化等;過濾公關信息,建立競爭對手檔案庫,全面把控競爭對手動態;跟蹤、分析、研究行業發展情況,捕捉行業發展新機會,為集團的戰略決策提供依據。
戰略分析師對于從業者的個人素質要求極高,它要求對業務生態和體系具有相當豐富的工作經驗,具備敏銳的市場和行業洞察及快速的業務理解和學習能力,以及從宏觀角度總結、分析和歸納問題及方法的能力等。另外,對于常見的市場和戰略分析框架的熟練應用、敏銳的市場嗅覺、較強的邏輯思維和溝通能力是必備的個人素質。
2.數據分析師
數據分析師是一類職位的統稱,通常數據分析師會定位于解決某一類問題而帶有業務主體特征,例如營銷分析師、會員分析師、運營分析師、商品分析師等。但無論如何定位,其基本工作職能如下:
?搭建公司數據分析體系并負責日常數據質量、報告、結論的把關;
?建立業務主體檔案庫,并通過效果預測模型,輔助業務主體計劃和KPI的制定;
?完善業務主體的畫像,并通過多種價值模型做業務主體分群、分類;
?識別業務主體中的虛假、異常、流失等信息,建立相應的預警系統;
?業務主體活動效果評估分析,并通過多種數據結果提升目標轉化率;
?建立業務主體效果標桿,提高業務要素的利用率并建立最優化效果評估模型和組合應用模型;
?協調利益相關者對如何使用研究和分析結論的想法,以支持業務計劃和戰略排序;
?針對特定場景建立生命周期模型,并針對不同場景和階段下的實際情況建立相應的分析思路和方法,輔助于業務主體優化;
?根據業務和公司需求,跟進專項分析項目進度,撰寫日常和專項報告并優化業務落地動作等。
該崗位要求具有一定的統計學、數學、計算機科學等專業背景,同時了解數據分析的基本概念和常用方法,熟悉常用業務主體中的指標及應用場景,具備較強的邏輯分析能力和報告書寫、業務溝通能力。對于常見的數據庫取數工具如SQL、數據庫客戶端以及數據建模和挖掘工具、Excel和SPSS等統計和分析工具也有一定要求。
3.網站分析師
網站分析師是數據分析類中一個較為特殊的職位分類,從工作形態看,除服務器需要IT部門配合進行相應配置、調試和部署外,網站分析師幾乎可以獨立完成從數據采集、存儲、計算、分析到數據應用的完整流程。網站分析師的工作主體和對象是以網站為主體的業務主體,包括營銷部門、網站運營部門、用戶體驗部門、前端產品部門等。
網站分析師的主要工作職責如下:
?根據業務需求進行網站檢測代碼方案的制訂、實施和后期維護;
?監控網站日常數據,為公司各級部門提供需求數據、日常報告;
?根據業務和公司需求,撰寫專項分析報告,提供專業決策支持;
?對網站流量、運營數據進行跟蹤和分析,尤其是對站外投放渠道、站內運營效果進行深入挖掘;
?對用戶數據進行深入分析,如頁面點擊分布、用戶行為習慣等,了解用戶需求并提出優化改善建議;
?網站流量系統管理、維護,跨部門溝通協作與項目推進等。
由于從事網站分析工作的特殊性,往往需要熟悉網站分析系統部署規則、代碼和語法,同時熟練應用不同的網站分析工具如Google Analytics(簡稱GA)、Omniture(現在名為Sitecatalyst,是Adobe Analytics的核心)、Webtrends、Webtrekk等,對于網站分析和數據分析的基本概念和方法以及常用指標及應用場景也要熟稔于心。除此之外,還要具備特定行業的從業經驗,特定的專業背景如營銷、計算機等是其加分項。
4.用戶研究員
用戶研究員是公司中針對用戶研究的崗位,主要目的是通過不同的研究方法來提升用戶滿意度、降低用戶流失并提升用戶生命周期價值等。
用戶研究員的主要職能是組織各種用戶研究項目,與產品經理交互和研發團隊溝通,發現用戶體驗提升的工作點;獨立完成用戶研究項目的全套流程,包括需求分析、方法設計、數據分析、結論提取以及報告撰寫;建立特定的用戶研究項目,包括用戶群體的行為分析、目標用戶驗證、產品體驗驗證、可用性測試、滿意度研究等;建立和推動產品以用戶為中心的工作制度和流程優化。
由于用戶研究的主體是用戶,因此需要該崗位的人員具有人機交互、心理學、社會學或相關專業背景,熟悉不同的研究方法和流程,對于研究數據具備一定的統計和數據分析能力及提取結論的能力,較強的溝通和業務理解能力、敏銳的洞察力和快速學習能力是崗位的加分項目。
5.商業智能分析員
商業智能分析員也叫BI分析師,是借助或依托于BI系統進行數據分析的崗位。該崗位通常是在企業內部已經建立起BI體系并搭建BI系統的前提下產生。
該崗位的主要職責是通過BI進行日常數據處理、監控和統計分析并支持運營活動,參與制作時間分析報告并為決策層提供數據支持;參與BI系統的搭建、優化和開發,進行或協調測試,以確保情報的定義與需求相一致;根據業務需求配置相關的BI模型和報表并為業務主體使用;BI系統的日常管理和維護,包括維護或更新的商業智能工具、數據庫、儀表板、系統或方法等。
商業智能分析員除了需要具備數據分析師的有關數據分析基本經驗和能力外,還需要熟練掌握BI系統的部署、實施、配置、規則和應用知識,能通過BI工具滿足不同的應用場景。