第1章　數據介紹

數據是新的石油。目前，企業內部的結構化數據、半結構化數據以及非結構化數據的數據量呈指數級增長。在每個垂直行業，具備數據洞察力的企業往往有更強的競爭力，這些企業使用機器學習（Machine Learning，ML）模型來改善產品功能及業務流程。

當今的企業擁有豐富的數據，但缺乏數據洞察力。Gartner（https://oreil.ly/kg3MU）預測，到2022年，將有80％的數據分析與洞察無法帶來業務成果。另一項研究（https://oreil.ly/Z6wcN）表明，87%的數據項目無法部署到生產環境中。來自谷歌的Sculley等人（https://oreil.ly/2xq7x）的研究表明，在生產中實現機器學習時，只有不到5％的工作花在了機器學習算法上（如圖1-1所示），剩下95％的工作用在了數據（發現、收集和準備數據）以及數據工程（在生產中構建和部署模型）上。

圖1-1：Sculley等人的研究分析了將機器學習模型投入生產所花費的時間。機器學習編碼耗費了5%的時間，而剩余95%的時間花在了與數據工程相關的活動上

盡管在數據湖中收集了大量數據，但它們可能不一致、無法解釋、不準確、不及時、未標準化或不充分。針對這樣的數據，數據科學家不得不把大量的時間花在調整數據收集系統、定義元數據、為訓練機器學習算法整理數據、大規模部署管道和模型等工程活動上。這些活動超出了數據科學家的核心洞察提取能力，并且由于對數據工程師和平臺IT工程師的依賴而成為瓶頸——這些工程師通常缺乏必要的業務背景。工程的復雜性限制了數據分析師和科學家獲取數據，導致數據無法在產品管理、營銷、金融、工程等領域得到應用。市場上雖然有很多關于機器學習編程和數據技術研究的書籍，但是關于開發自助服務平臺以支持廣泛的數據用戶所需的數據工程操作模式的書籍很少。

一些企業已經確定了自動化的需求，并實現了從數據到洞察自助服務的過程。谷歌的TensorFlow Extended（TFX）（https://oreil.ly/IzHKV）、Uber的Michelangelo（https://oreil.ly/mZiAI）以及Facebook的FBLearner Flow（https://oreil.ly/nOdbi）都是開發機器學習洞察的自助服務平臺的例子。沒有普遍適用的銀彈策略。每個企業在現有技術構建塊、數據集質量、支持的用例類型、流程和人員技能方面都是獨一無二的。例如，為少數使用干凈的數據集開發機器學習模型的數據科學家創建一個自助服務平臺，與創建支持異構數據用戶使用不同質量的數據集（并使用自制工具進行接入和調度）且支持其他構件塊的平臺截然不同。

盡管在數據技術上進行了大量投入，但根據我的經驗，自助服務數據平臺計劃在執行過程中要么失敗，要么中途放棄，原因有以下三點：

在溝通中迷失了數據用戶真正的痛點

數據用戶和數據平臺工程師的視角不同。數據工程師不懂具體的業務問題且把握不到數據用戶的痛點。數據用戶不了解大數據技術的局限性和現實情況。這導致團隊之間相互指責，無法得出一個持久的解決方案。

為了技術而采用“閃亮”的新技術

鑒于解決方案眾多，團隊經常采用下一個“閃亮”的技術，而不清楚減緩提取洞察的問題。很多時候，企業最終是為了技術而投資技術，而沒有減少提取洞察的總體時間。

在轉型過程中處理過多的問題

多種功能構成平臺自助服務。團隊的目標通常是處理所有方面的工作，這無異于煮沸大海。相反，開發自助服務數據平臺應該像開發自動駕駛汽車（具有不同級別的自動駕駛能力）一樣，在自動化程度和實現復雜性方面有所不同。

官术网_书友最值得收藏!

數據自助服務實踐指南：數據開放與洞察提效

第1章 數據介紹

第1章　數據介紹