官术网_书友最值得收藏!

1.4 大數據領域的主要職位及其能力要求

大數據是時代的重要力量,而熟練掌握大數據技術的人才是根本。由于大數據系統的復雜性和層次性,大數據領域的職位有不同特點和不同能力要求。

1.4.1 首席數據官

首席數據官(Chief Data Officer,CDO)和數據科學家(或稱數據分析師)是企業大數據落地的典型人才。

CDO是指懂得企業或組織業務運作的數據分析者,CDO不能僅僅停留在簡單地收集、整理、分析、報告這個層面上,而是要結合實際,發現數據背后潛藏的挑戰和機遇,并將挑戰和機遇提交決策層,從而將這些數據應用于企業的戰略規劃和日常運營中。CDO掌握了企業內部核心的數據資源,需要對歷史數據進行整理,對業務發展進行分析和預測,從而提高企業在數據獲取、存儲和分析的水平,為高層管理者提供更科學有效的決策支持,以及開拓新的業務領域。CDO的主要職責是領導數據分析團隊,將數據轉化為企業業務語言,從而使得決策層容易理解和運用。通過CDO來加強數據管控,可提高對業務風險的控制水平。

CDO必須具備五種能力或知識:統計學和數學的知識、洞悉網絡產業和發展趨勢的能力、IT設備和技術選型的能力、商業運營的能力、管理和溝通的能力。他們不僅要關注系統架構中所承載的內容,更要擔任企業決策和數據分析匯總的樞紐;要熟悉面向服務的架構(SOA)、商業智能(BI)、大規模數據集成系統、數據存儲交換機制,以及數據庫、可擴展標記語言(XML)、電子數據交換(EDI)等系統架構;要深入了解企業的業務狀況和所處的產業背景,清楚地了解組織的數據源、大小和結構等,才可將數據資料與業務狀況聯合起來分析,并提出相對應的市場和產品策略。

1.4.2 數據科學家

與CDO一樣,數據科學家是受到廣泛關注的大數據專業人才。數據科學是一門交叉學科,涉及數學、統計學、計算機科學、數據可視化技術,以及具體行業的專業知識等。數據科學家的專長是“量化問題,然后解決問題”,他們的工作由三種內容混合而成:定量分析(讓你了解數據)、程序設計(讓你可以處理數據)、講故事(讓你了解數據的含義)。

數據科學家應該具有扎實的統計學基礎,統計學是當前很多數據分析和數據挖掘算法的理論基礎。對統計理論,如概率分布、假設檢驗、貝葉斯理論等的理解,有助于對數據進行更好的解讀。

數據科學家應能夠深刻理解預測模型,能夠使用常見的預測模型(如回歸、聚類、決策樹等)在歷史數據基礎上預測未來。對這些預測模型使用方法、應用場景的理解,是數據科學家必須具備的技能。

數據科學家應當能夠熟練使用統計工具。為了提高工作效率,數據科學家要熟練使用一種或多種分析工具。Excel是當前最為流行的小規模數據處理工具,SAS工具得到了廣泛的應用。而以Hadoop為代表的數據管理工具,將越來越廣泛地應用于數據業務中。

數據科學家基本、通用的一種技能是寫代碼,用所有相關方面都能聽懂的語言進行溝通;另一種特殊技能是用數據講故事,通過口頭表達和視覺效果進行描述。

數據科學家是專業的數據研究者,需要具備熟練的數據處理和分析技能。CDO職能更多涉及企業或組織總體管理和戰略決策層面,數據科學家在CDO指導下工作,能解決復雜的數據問題,專業性更強。

一個初級的數據科學家可能只需要掌握基本分析技巧便可勝任;成熟的數據科學家需要對數據分析方法有較深入的理解;而優秀的數據科學家則應具備豐富的經驗、廣泛的知識面,能夠獨立設計和完成相關解決方案。總之,對數據的重視程度越來越高,數據科學家在經營和決策中所起的作用也越來越大,因而對數據科學家的技術技能和內在素質均提出了更多的要求。

成熟的數據科學家應具備四個條件是:熟悉業務的細節、掌握數據分析工具的操作、對數據價值的敏感度和對數據提煉融合的能力。目前很多數據科學家比較擅長的是通過數據分析對已發生的問題查找原因,但缺乏發掘未知問題的能力,也缺少對趨勢預測的把握,而大數據的價值恰恰在于預測未來。如果只熟悉數據分析工具的操作,卻不熟悉業務的細節,就無法從既有的數據中挖掘出新的價值,達到推動企業發展的目的。

1.4.3 大數據開發工程師

互聯網公司希望大數據開發工程師具有統計學和數學的碩士或博士學歷。因為缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域。按照不同的數據模型和算法總能得到一些結果,但如果不知道數據代表什么,也就不能得到真正有意義的結果,并且這樣的結果還容易誤導人。只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,從而解決實際問題。

除了良好的數學背景,對大數據開發工程師來說,還要求有很強的計算機編程能力。實際開發能力和大規模數據的處理能力是作為大數據開發工程師的必備能力。許多數據的價值來自挖掘過程,開發人員必須親自動手才能發現其價值。例如,人們在社交網絡上產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中獲取有意義的信息,就需要大數據開發工程師親自挖掘。即使在某些團隊中,大數據開發工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。

除了數學和統計學相關理論知識,以及很強的計算機編程能力,作為大數據開發工程師,還需要具有特定應用領域或行業的專業知識。大數據開發工程師這個角色很重要的一點是,不能脫離市場,因為只有和特定領域的應用結合起來大數據才能產生價值。大數據開發工程師不能只是懂得數據,還要有商業頭腦,不論零售、醫藥、游戲還是旅游等行業,都要對其中某些領域有良好的理解,最好還要與企業的業務方向一致。過去,我們常說一些奢侈品店員勢利,看人一眼就知道他是否能買得起,但這群人恰恰是有敏銳性的,他們是這個行業的專家。又如對醫療行業了解的人,他在考慮醫療保險業務時,不僅會查看人們去醫院看病的相關記錄,也會考慮飲食數據,這些都基于對該領域的了解。

對于一個優秀的大數據開發工程師來說,除了上面列出的要求,還有一個非常重要的要求,即他們必須深入理解大數據系統的架構,各個組件的基本原理、實現機制,甚至其中涉及的算法等。只有這樣,他們才能構建一個強大且穩定的分布式集群系統,并充分利用分布式存儲和并行計算的能力來處理大數據。

對于大多數企業而言,自行研發一個高性能的集群系統往往要支付高昂的代價。經過多年的發展,如今已形成了以Hadoop為核心的開源大數據生態系統,利用通用的硬件就可以構建一個強大、穩定、簡單并且高效的分布式集群系統計算系統,可以滿足企業基礎架構平臺的需求,付出相對低廉的代價就可以輕松處理超大規模的數據。因此,大數據開發工程師必須深入理解以Hadoop為核心的開源大數據生態系統的系統架構、原理及開發應用,并具有豐富的優化經驗,才能充分利用該系統來處理超大規模的數據,甚至在該系統上開發特定應用的新組件。當然,大數據開發工程師還需要具有大數據采集、大數據預處理、大數據存儲與管理、分析挖掘與展現應用等大數據相關技術。

1.4.4 大數據運維工程師

除了大數據分析人才(開發人才),企業還需要運維方面的人才。由于大數據系統是一個非常復雜的系統,涉及的技術繁多,尤其是在基于開源的平臺下,對大數據系統運維工程師提出了非常高的能力要求。大數據系統運維工程師應熟悉Java、Python、Shell等語言;熟悉Hadoop工作原理,對HDFS、MapReduce運行過程要有深入理解,具備MapReduce開發經驗,熟悉數據倉庫體系架構,熟悉數據建模;熟悉至少一種RDBMS,如MySQL、Oracle、SQLServer,熟練使用SQL語言;熟悉大數據生態圈及其他技術,如HBase、Storm、Spark、Impala、Kafka、Sqoop等技術的細節。

目前,大數據運維方面的人才非常缺乏,也很難培養。因為大數據系統是一個非常復雜的系統,要想熟悉其中的每一個組件,是非常不容易的。這是其他專業(如MySQL、J2EE等)的完全不能相比的,所以企業要特別注意儲備和培養大數據運維方面的人才。

主站蜘蛛池模板: 亳州市| 绥滨县| 高清| 双江| 中西区| 潞西市| 且末县| 德昌县| 当阳市| 岢岚县| 尼木县| 平陆县| 个旧市| 邳州市| 玛纳斯县| 韶关市| 新巴尔虎右旗| 平安县| 林州市| 青铜峡市| 湖南省| 盐津县| 邢台市| 双牌县| 灵山县| 南充市| 仙居县| 辉县市| 辉南县| 扎兰屯市| 文成县| 吴桥县| 临漳县| 石泉县| 邹城市| 大邑县| 南丰县| 信丰县| 黎城县| 宽甸| 榕江县|