- Kubeflow學習指南:生產級機器學習系統實現
- (美)Trevor Grant等
- 298字
- 2022-02-08 17:52:43
3.1.2 訓練operator
JupyterHub是用于數據初始實驗和ML作業原型的良好工具。然而,當在生產中進行訓練時,Kubeflow提供了一些訓練組件來自動執行機器學習算法,包括:
·Chainer訓練(https://oreil.ly/AjfwS)
·MPI訓練(https://oreil.ly/SK19W)
·Apache MXNet訓練(https://oreil.ly/FvDdQ)
·PyTorch訓練(https://oreil.ly/0z4j6)
·TensorFlow訓練(https://oreil.ly/YmGkx)
在Kubeflow中,分布式訓練作業由特定于應用程序的控制器(稱為operator)管理。這些operator擴展了Kubernetes API,用于創建、管理和修改資源的狀態。例如,要運行一個分布式的TensorFlow訓練作業,用戶只需要提供一個描述所需狀態的規范(工作節點和參數服務器的數量等),TensorFlow operator組件將負責其余的工作,并負責管理訓練作業的生命周期。
這些operator允許自動化重要的部署概念,例如,可擴展性、可觀測性和故障轉移。它們也可以被Pipeline使用,與系統中的其他組件進行鏈式執行。
推薦閱讀
- DL/T5161.10-2002電氣裝置安裝工程質量檢驗及評定規程第10部分:35kV及以下架空電力線路施工質量檢驗(英文版)
- DL/T 5528-2017 輸變電工程結算審核報告編制導則
- GB50168-2006電氣裝置安裝工程電纜線路施工及驗收規范(英文版)
- GB/T 51338-2018 分布式電源并網工程調試與驗收標準
- DL/T5161.2-2002電氣裝置安裝工程質量檢驗及評定規程第2部分:高壓電器施工質量檢驗(英文版)
- GB50432-2007煉焦工藝設計規范(英文版)
- GB 51209-2016 發光二極管工廠設計規范
- DL/T5161.6-2002電氣裝置安裝工程質量檢驗及評定規程第6部分:接地裝置施工質量檢驗(英文版)
- DL/T 5502-2015 串補站初步設計文件內容深度規定
- GB 51134-2015 煤礦瓦斯發電工程設計規范
- GB50764-2012電廠動力管道設計規范(英文版)
- GB/T 51175-2016 煉油裝置火焰加熱爐工程技術規范
- 水泥工廠環境保護設施設計標準
- GB 51176-2016 干混砂漿生產線設計規范
- GB50548-2010330kV-750kV架空輸電線路勘測規范(英文版)