官术网_书友最值得收藏!

1.2.2 數據項目團隊的組成

數據分析是一個跨領域的方法論,涉及計算機科學、數學、神經學、心理學、經濟學、統計學等領域。換句話說,數據分析并不是單一領域的學科。要完成一個好的數據項目,一個合作無間的數據項目團隊必不可少,并且數據項目團隊的人員必須同時掌握不同領域的知識,也需要有跨領域合作的思維。數據思維是一種跨領域宏觀視野下的思維模式。

另外,跨領域的整合也是一個重要的數據應用關鍵。無論數據多寡,數據項目都建立在信息、統計、可視化等不同的領域專業上。不過從現實層面上來說,很難有人可以同時具備那么多能力,因此數據項目更需要團隊合作。

一個完整的數據項目團隊,除了要有特定領域的專家之外,還需要以下3種角色:數據科學家(Data Scientist)、數據分析師(Data Analyst)及數據工程師(Data Engineer)。

數據科學家是一個數據項目團隊的核心,需要具備綜合統籌的能力,包括觀察數據、發現問題、組織整個數據團隊,可以視為數據項目團隊的組長,擁有相關領域的各種技能,哪里需要就往哪里去,能獨立實現從分析數據、處理數據到實踐應用直到最終產生價值的過程。簡單來說,數據科學家就是“用數據解決真實問題的人”。也正因為如此,數據科學家須具有多元化的能力包括與其他角色溝通的能力,從處理數據的工程到分析數據的建模都需要涉獵,還要擁有洞察力。聽起來好像數據科學家什么都要會,不過實際上很難有人可以樣樣精通,所以團隊才顯得更為重要。一個好的數據科學家,必須能夠駕馭一個數據項目團隊。

數據科學家的主要工作是觀察數據,從中發現有趣的和需要解決的問題(通常這個過程被稱為數據驅動);然后和工程師商量如何從數據庫中建立分析架構;最終,與統計學家用統計模型/數據挖掘/機器學習的技術進一步分析數據,同時產生一份數據報告。數據科學家可以視為數據分析師的“進階版”,解決數據分析師難以解決的復雜問題,終極目標是找出藏在數據背后的信息,并根據這些信息預測未來趨勢。

數據科學家需要涉獵不同的領域,如基本的數學理論、大數據、程序設計、統計、機器學習與數據可視化等。簡單來說,數據科學家需具備一定的綜合能力。

數據分析師通常是指對數據進行解釋的工作者。其工作步驟是“搜集數據—整理數據—分析數據—產生結果”,最常見的技能是利用常見的商業統計軟件(如SQL、R、SAS、Excel)得出統計報告,并對統計報告進行解釋。數據分析師所做的一切都是為了回答問題[通常這個過程被稱為問題驅動(Problem Driven)]。

數據分析師在數據工程師提供的數據基礎之上對數據進行探索性分析,目的是找到問題的正確答案,主要工作通常是例行性任務,定期出一個報告來分析季度數據,供管理層決策參考。數據分析師需要具有操作統計軟件的基本技能,往往對數字及數據有一定的敏感性。

數據工程師的主要任務是進行數據的架構設計,專注于環境與平臺的架設。其所做的一切都是為了讓數據可以容易地被使用,負責建立和維持公司數據儲存的技術基準,策劃硬體和軟件的結構,確保數據儲存系統可以支持未來的數據量和分析需求,最終目標是把數據整理好,達到降低儲存成本、提高查詢效率的目的。

隨著巨量數據的需求,現在的數據通常存在很多的噪聲及干擾,相關人員需要花更多的精力在數據清理上。數據項目團隊的主要工作包括收集數據、管理數據,設計一個好的架構以便存取數據,針對用戶需求設計產出的數據集,需要具備數據爬蟲、數據庫架構、數據預處理(數據清理、轉換)、數據建模、分散式系統等相關專業知識和技能。

主站蜘蛛池模板: 建平县| 密山市| 毕节市| 馆陶县| 孟连| 竹溪县| 清流县| 牙克石市| 巍山| 涪陵区| 枞阳县| 铁岭市| 定西市| 卓尼县| 上饶市| 沙田区| 招远市| 乌兰县| 沽源县| 宜州市| 焉耆| 汉中市| 民权县| 开远市| 峨边| 梁平县| 青川县| 阜康市| 高雄市| 和政县| 雅安市| 刚察县| 甘洛县| 田东县| 安徽省| 滕州市| 本溪市| 大石桥市| 定兴县| 榆林市| 准格尔旗|