- Ray分布式機器學習:利用Ray進行大模型的數據處理、訓練、推理和部署
- (德)馬克斯·普佩拉等
- 589字
- 2024-08-06 17:07:31
1.4 Ray的生態
Ray的高級庫功能十分強大,本書將深入探討這些高級庫。雖然它們對于數據科學很重要,但我們并不希望給人一種Ray是萬金油解決方案的印象。通常,最好和最成功的框架是能與現有解決方案和編程思想進行集成的框架。所以最好專注于自己的核心優勢,并利用其他工具填補不足,Ray在這方面做得非常出色。
在本書中,特別是第11章,我們將討論許多基于Ray的強大的第三方庫。Ray生態還與許多現有工具進行了集成。例如,Ray Dataset是Ray的數據加載和計算庫。如果你已經使用了Spark[18]或Dask等數據處理引擎,則可以將這些工具與Ray一起使用。具體來說,你可以使用Dask-on-Ray調度器在Ray集群上運行整個Dask生態,或者可以使用Spark on Ray項目(https://oreil.ly/J1D5I)將Spark計算任務與Ray集成。同樣,Modin項目(https://oreil.ly/brGPJ)是Pandas DataFrames的分布式即插即用替代方案,它使用Ray(或Dask)作為分布式執行引擎(“Pandas on Ray”)。
Ray并不試圖替代所有這些工具,而是在與它們集成的同時,仍然可以訪問原生的Ray Dataset庫。在第11章中,我們將詳細介紹Ray與其他生態工具的關系。
許多Ray庫的重要特性之一是它們無縫集成了常用工具作為后端。Ray通常創建常見的接口,而不是創建新標準[19]。這些接口支持以分布式方式運行任務,這是大多數相應的后端所沒有或功能欠缺的。例如,Ray RLlib和Train利用了TensorFlow和PyTorch的全部強大功能。而Ray Tune支持幾乎所有知名的超參數調優工具,包括Hyperopt、Optuna、Nevergrad、Ax、SigOpt等。這些工具默認情況下都不是分布式的,但Tune通過通用接口將它們統一起來,用于分布式計算任務。
- SQL Server 2016從入門到精通(視頻教學超值版)
- Spring技術內幕:深入解析Spring架構與設計
- 趣學Python算法100例
- Magento 2 Development Cookbook
- Wireshark Network Security
- Apache Spark 2.x for Java Developers
- 零基礎入門學習Python(第2版)
- ExtJS高級程序設計
- Java Fundamentals
- Kotlin Programming By Example
- 零基礎輕松學C++:青少年趣味編程(全彩版)
- PostgreSQL Developer's Guide
- C++17 By Example
- DevOps 精要:業務視角
- JavaScript前端開發基礎教程