- Ray分布式機器學習:利用Ray進行大模型的數據處理、訓練、推理和部署
- (德)馬克斯·普佩拉等
- 540字
- 2024-08-06 17:07:29
第1章 Ray概述
人們正以前所未有的速度和廣度采集海量數據,這是分布式計算大行其道的原因之一。過去十年間,出現了一大批存儲系統、數據處理和分析引擎,這些工具對許多公司的成功至關重要。有趣的是,多數“大數據”技術是專為負責數據采集和處理任務的數據工程師打造并使用的,這么做是為了讓數據科學家專注于擅長的工作。作為數據科學從業者,你可能希望專注于訓練復雜的機器學習模型、進行高效的超參數調優、創建全新的自定義模型或模擬,或者部署模型以提供服務。
與此同時,將計算任務擴展到計算集群也是大勢所趨。為了實現擴展,分布式系統需要支持所有這些細粒度的“大計算”任務,可能還要使用專業的硬件。理想情況下,硬件需要與正在使用的大數據工具鏈相匹配,并且速度足夠快以滿足延遲要求。換句話說,分布式計算必須既強大且靈活,這樣才能應對復雜的數據科學計算任務,而Ray恰恰滿足所有這些要求。
Python是當下最流行的數據科學語言。對于數據科學中的日常工作,Python是最常用的語言。雖然Python已經有30余年的歷史,但仍然擁有不斷增長和活躍的社區。豐富的PyData生態(https://pydata.org)是數據科學家工具箱的重要組成部分。在利用這些工具的同時,如何擴展計算任務呢?這是一個難題,特別是因為Python社區不能被迫放棄現有工具或編程語言。這意味著必須為Python社區構建分布式計算工具。
推薦閱讀
- Mastering Python Scripting for System Administrators
- Animate CC二維動畫設計與制作(微課版)
- Neo4j Essentials
- Building an RPG with Unity 2018
- Protocol-Oriented Programming with Swift
- C#實踐教程(第2版)
- Node.js:來一打 C++ 擴展
- NGINX Cookbook
- C語言開發基礎教程(Dev-C++)(第2版)
- C++反匯編與逆向分析技術揭秘(第2版)
- C++ Fundamentals
- Building Dynamics CRM 2015 Dashboards with Power BI
- Magento 2 Beginners Guide
- 深入理解Kafka:核心設計與實踐原理
- Java程序設計(項目教學版)