飞鸟派对爆分技巧

書名：數據自助服務實踐指南：數據開放與洞察提效
作者名： (美)桑迪普·烏坦坎達尼
本章字數： 768字
更新時間： 2022-05-20 19:18:49

第4章　特征存儲服務

到目前為止，我們已經為生成所需的洞察發現了可用的數據集和工件。在機器學習模型中，還有一個額外的步驟是發現特征。例如，一個需要訓練的收入預測模型需要以前按市場、產品線等劃分的收入數值作為輸入。特征是一種數據屬性，可以直接提取，也可以從數據源通過計算來獲得。例如，一個人的年齡、從傳感器發出的坐標、一段文字中的一個詞，或者過去一小時內的平均購買次數。在機器學習模型中使用某個特征時需要數據屬性的歷史值。

數據科學家花費了大量的時間為機器學習模型創建訓練數據集。構建數據管道來生成訓練以及推理所需的特征是一個重要的痛點。首先，數據科學家必須編寫訪問數據存儲的低級代碼，這需要數據工程技能。其次，生成這些特征的管道有多種實現方式，這些實現并不總是一致的，比如，訓練和推理的數據管道是獨立的。最后，管道代碼在不同機器學習項目中是重復的，而且不能重用，因為它是作為模型實現的一部分嵌入的。最后，沒有變更管理或特征治理。這些方面影響了整體的洞察耗時。關鍵是數據用戶通常缺乏工程技能來開發健壯的數據管道，并在生產中監控這些管道。另外，特征管道是反復從頭開始構建的，而不是在機器學習項目之間共享。構建機器學習模型的過程是迭代的，需要對不同的特征組合進行探索。

理想情況下，特征存儲服務應該為機器學習模型的訓練和推理提供有據可查、有管理、有版本、有整理的特征（如圖4-1所示）。數據用戶可以通過最小的數據工程來搜索和使用特征以構建模型。用于訓練和推理的特征管道在實現上是一致的。此外，在不同機器學習項目中緩存和重用特征可以減少訓練時間和基礎設施成本。該服務成功與否的指標是特征處理耗時。隨著特征越來越豐富，通過在此基礎上構建特征存儲服務可以以更快的速度、更低的成本來構建新模型。

圖4-1：特征存儲作為特征的存儲倉庫，用于多個數據項目中模型的訓練和推理

官术网_书友最值得收藏!

數據自助服務實踐指南：數據開放與洞察提效

第4章 特征存儲服務

第4章　特征存儲服務