官术网_书友最值得收藏!

3.1.2 訓練operator

JupyterHub是用于數據初始實驗和ML作業原型的良好工具。然而,當在生產中進行訓練時,Kubeflow提供了一些訓練組件來自動執行機器學習算法,包括:

·Chainer訓練(https://oreil.ly/AjfwS

·MPI訓練(https://oreil.ly/SK19W

·Apache MXNet訓練(https://oreil.ly/FvDdQ

·PyTorch訓練(https://oreil.ly/0z4j6

·TensorFlow訓練(https://oreil.ly/YmGkx

在Kubeflow中,分布式訓練作業由特定于應用程序的控制器(稱為operator)管理。這些operator擴展了Kubernetes API,用于創建、管理和修改資源的狀態。例如,要運行一個分布式的TensorFlow訓練作業,用戶只需要提供一個描述所需狀態的規范(工作節點和參數服務器的數量等),TensorFlow operator組件將負責其余的工作,并負責管理訓練作業的生命周期。

這些operator允許自動化重要的部署概念,例如,可擴展性、可觀測性和故障轉移。它們也可以被Pipeline使用,與系統中的其他組件進行鏈式執行。

主站蜘蛛池模板: 醴陵市| 客服| 思南县| 丽江市| 玉环县| 彭阳县| 滨海县| 从化市| 米林县| 嘉义市| 临城县| 明水县| 彭水| 黔西| 定边县| 阿瓦提县| 突泉县| 靖宇县| 汝阳县| 临邑县| 曲麻莱县| 增城市| 偃师市| 锦州市| 大同市| 伽师县| 蓬溪县| 陆河县| 张家港市| 印江| 龙山县| 新巴尔虎左旗| 京山县| 宿州市| 都江堰市| 江油市| 金堂县| 宜昌市| 抚顺县| 邻水| 阿勒泰市|