- 數據自助服務實踐指南:數據開放與洞察提效
- (美)桑迪普·烏坦坎達尼
- 703字
- 2022-05-20 19:18:50
4.1 路線圖
開發和管理特征是開發機器學習模型的關鍵步驟。通常,數據項目會共享一組公共特征,允許重復使用相同的特征。隨著復用特征數量的增加,會降低新數據項目實現的成本(如圖4-2所示)。在不同的項目中,特征有較多的重疊。本節討論特征存儲服務中的關鍵場景。

圖4-2:隨著特征存儲中可用特征的增加,新數據項目所需的時間和成本會減少
4.1.1 發現可用特征
作為探索階段的一部分,數據科學家搜索可用于構建機器學習模型的可用特征。這個階段的目標是重用特征并降低構建模型的成本。這個過程包括分析可用特征是否具有良好的質量,以及它們的使用方法。由于缺乏集中的特征庫,所以數據科學家經常跳過搜索階段,而開發一些臨時的訓練管道,這些管道隨著時間的推移變得越來越復雜。隨著模型數量的增加,很快就變成了難以管理的管道叢林。
4.1.2 訓練集生成
在模型訓練過程中,需要由一個或多個特征組成的數據集來訓練模型。訓練集包含這些特征的歷史值,并與預測標簽一起生成。我們通過編寫查詢語句來準備訓練集,這些查詢語句從數據集源中提取數據,并對特征的歷史數據值進行轉換、清洗和生成。開發訓練集往往要花費大量的時間。同時,特征集需要不斷地更新新值(這個過程稱為回填)。有了特征存儲,在構建模型的過程中就可以獲得特征的訓練數據集。
4.1.3 用于在線推理的特征管道
對于模型推理,特征值作為模型的輸入,然后由模型生成預測輸出。在推理過程中,生成特征的管道邏輯必須與訓練過程中使用的邏輯相匹配,否則模型的預測將是錯誤的。除了管道邏輯之外,在在線模型中生成用于推理的特征時延遲也要盡量小。當前,嵌入在機器學習管道中的特征管道不方便重用。此外,訓練管道邏輯的變化可能無法與相應的模型推理管道保持一致。