第1章 Ray概述

人們正以前所未有的速度和廣度采集海量數據，這是分布式計算大行其道的原因之一。過去十年間，出現了一大批存儲系統、數據處理和分析引擎，這些工具對許多公司的成功至關重要。有趣的是，多數“大數據”技術是專為負責數據采集和處理任務的數據工程師打造并使用的，這么做是為了讓數據科學家專注于擅長的工作。作為數據科學從業者，你可能希望專注于訓練復雜的機器學習模型、進行高效的超參數調優、創建全新的自定義模型或模擬，或者部署模型以提供服務。

與此同時，將計算任務擴展到計算集群也是大勢所趨。為了實現擴展，分布式系統需要支持所有這些細粒度的“大計算”任務，可能還要使用專業的硬件。理想情況下，硬件需要與正在使用的大數據工具鏈相匹配，并且速度足夠快以滿足延遲要求。換句話說，分布式計算必須既強大且靈活，這樣才能應對復雜的數據科學計算任務，而Ray恰恰滿足所有這些要求。

Python是當下最流行的數據科學語言。對于數據科學中的日常工作，Python是最常用的語言。雖然Python已經有30余年的歷史，但仍然擁有不斷增長和活躍的社區。豐富的PyData生態（https://pydata.org）是數據科學家工具箱的重要組成部分。在利用這些工具的同時，如何擴展計算任務呢？這是一個難題，特別是因為Python社區不能被迫放棄現有工具或編程語言。這意味著必須為Python社區構建分布式計算工具。

官术网_书友最值得收藏!

Ray分布式機器學習：利用Ray進行大模型的數據處理、訓練、推理和部署

第1章 Ray概述