官术网_书友最值得收藏!

4.1 路線圖

開發和管理特征是開發機器學習模型的關鍵步驟。通常,數據項目會共享一組公共特征,允許重復使用相同的特征。隨著復用特征數量的增加,會降低新數據項目實現的成本(如圖4-2所示)。在不同的項目中,特征有較多的重疊。本節討論特征存儲服務中的關鍵場景。

059-02

圖4-2:隨著特征存儲中可用特征的增加,新數據項目所需的時間和成本會減少

4.1.1 發現可用特征

作為探索階段的一部分,數據科學家搜索可用于構建機器學習模型的可用特征。這個階段的目標是重用特征并降低構建模型的成本。這個過程包括分析可用特征是否具有良好的質量,以及它們的使用方法。由于缺乏集中的特征庫,所以數據科學家經常跳過搜索階段,而開發一些臨時的訓練管道,這些管道隨著時間的推移變得越來越復雜。隨著模型數量的增加,很快就變成了難以管理的管道叢林。

4.1.2 訓練集生成

在模型訓練過程中,需要由一個或多個特征組成的數據集來訓練模型。訓練集包含這些特征的歷史值,并與預測標簽一起生成。我們通過編寫查詢語句來準備訓練集,這些查詢語句從數據集源中提取數據,并對特征的歷史數據值進行轉換、清洗和生成。開發訓練集往往要花費大量的時間。同時,特征集需要不斷地更新新值(這個過程稱為回填)。有了特征存儲,在構建模型的過程中就可以獲得特征的訓練數據集。

4.1.3 用于在線推理的特征管道

對于模型推理,特征值作為模型的輸入,然后由模型生成預測輸出。在推理過程中,生成特征的管道邏輯必須與訓練過程中使用的邏輯相匹配,否則模型的預測將是錯誤的。除了管道邏輯之外,在在線模型中生成用于推理的特征時延遲也要盡量小。當前,嵌入在機器學習管道中的特征管道不方便重用。此外,訓練管道邏輯的變化可能無法與相應的模型推理管道保持一致。

主站蜘蛛池模板: 色达县| 喀什市| 邳州市| 固安县| 江西省| 蒲城县| 兴和县| 克什克腾旗| 昭觉县| 蕉岭县| 洪湖市| 海城市| 博野县| 芒康县| 玉林市| 厦门市| 乡宁县| 达尔| 古蔺县| 繁昌县| 大安市| 新津县| 洛隆县| 定南县| 布尔津县| 辽宁省| 神农架林区| 民权县| 宜兰市| 衡南县| 司法| 安陆市| 裕民县| 云霄县| 娄底市| 奉节县| 宁陕县| 佛山市| 青神县| 衡东县| 海阳市|