飞鸟派对11个红色是多少倍

書名：數據自助服務實踐指南：數據開放與洞察提效
作者名： (美)桑迪普·烏坦坎達尼
本章字數： 703字
更新時間： 2022-05-20 19:18:50

4.1　路線圖

開發和管理特征是開發機器學習模型的關鍵步驟。通常，數據項目會共享一組公共特征，允許重復使用相同的特征。隨著復用特征數量的增加，會降低新數據項目實現的成本（如圖4-2所示）。在不同的項目中，特征有較多的重疊。本節討論特征存儲服務中的關鍵場景。

圖4-2：隨著特征存儲中可用特征的增加，新數據項目所需的時間和成本會減少

4.1.1　發現可用特征

作為探索階段的一部分，數據科學家搜索可用于構建機器學習模型的可用特征。這個階段的目標是重用特征并降低構建模型的成本。這個過程包括分析可用特征是否具有良好的質量，以及它們的使用方法。由于缺乏集中的特征庫，所以數據科學家經常跳過搜索階段，而開發一些臨時的訓練管道，這些管道隨著時間的推移變得越來越復雜。隨著模型數量的增加，很快就變成了難以管理的管道叢林。

4.1.2　訓練集生成

在模型訓練過程中，需要由一個或多個特征組成的數據集來訓練模型。訓練集包含這些特征的歷史值，并與預測標簽一起生成。我們通過編寫查詢語句來準備訓練集，這些查詢語句從數據集源中提取數據，并對特征的歷史數據值進行轉換、清洗和生成。開發訓練集往往要花費大量的時間。同時，特征集需要不斷地更新新值（這個過程稱為回填）。有了特征存儲，在構建模型的過程中就可以獲得特征的訓練數據集。

4.1.3　用于在線推理的特征管道

對于模型推理，特征值作為模型的輸入，然后由模型生成預測輸出。在推理過程中，生成特征的管道邏輯必須與訓練過程中使用的邏輯相匹配，否則模型的預測將是錯誤的。除了管道邏輯之外，在在線模型中生成用于推理的特征時延遲也要盡量小。當前，嵌入在機器學習管道中的特征管道不方便重用。此外，訓練管道邏輯的變化可能無法與相應的模型推理管道保持一致。

官术网_书友最值得收藏!

數據自助服務實踐指南：數據開放與洞察提效

4.1 路線圖

4.1.1 發現可用特征

4.1.2 訓練集生成

4.1.3 用于在線推理的特征管道

4.1　路線圖

4.1.1　發現可用特征

4.1.2　訓練集生成

4.1.3　用于在線推理的特征管道