官术网_书友最值得收藏!

第1章 Ray概述

人們正以前所未有的速度和廣度采集海量數據,這是分布式計算大行其道的原因之一。過去十年間,出現了一大批存儲系統、數據處理和分析引擎,這些工具對許多公司的成功至關重要。有趣的是,多數“大數據”技術是專為負責數據采集和處理任務的數據工程師打造并使用的,這么做是為了讓數據科學家專注于擅長的工作。作為數據科學從業者,你可能希望專注于訓練復雜的機器學習模型、進行高效的超參數調優、創建全新的自定義模型或模擬,或者部署模型以提供服務。

與此同時,將計算任務擴展到計算集群也是大勢所趨。為了實現擴展,分布式系統需要支持所有這些細粒度的“大計算”任務,可能還要使用專業的硬件。理想情況下,硬件需要與正在使用的大數據工具鏈相匹配,并且速度足夠快以滿足延遲要求。換句話說,分布式計算必須既強大且靈活,這樣才能應對復雜的數據科學計算任務,而Ray恰恰滿足所有這些要求。

Python是當下最流行的數據科學語言。對于數據科學中的日常工作,Python是最常用的語言。雖然Python已經有30余年的歷史,但仍然擁有不斷增長和活躍的社區。豐富的PyData生態(https://pydata.org)是數據科學家工具箱的重要組成部分。在利用這些工具的同時,如何擴展計算任務呢?這是一個難題,特別是因為Python社區不能被迫放棄現有工具或編程語言。這意味著必須為Python社區構建分布式計算工具。

主站蜘蛛池模板: 固始县| 博兴县| 隆子县| 绍兴县| 永嘉县| 浮山县| 金寨县| 东平县| 长宁县| 华亭县| 额敏县| 西安市| 驻马店市| 丹寨县| 老河口市| 珠海市| 峨山| 贵南县| 陈巴尔虎旗| 盱眙县| 清涧县| 哈尔滨市| 亚东县| 莱芜市| 元朗区| 望城县| 美姑县| 桐乡市| 高唐县| 六枝特区| 阜平县| 伽师县| 瑞金市| 吉木萨尔县| 比如县| 巧家县| 左贡县| 甘谷县| 高碑店市| 南陵县| 东莞市|