- 構建可靠的機器學習系統
- (美)凱茜·陳 (愛爾蘭)尼爾·理查德·墨菲 (美)克蘭蒂·帕里薩 (美)D.斯卡利 (美)托德·安德伍德
- 1665字
- 2025-06-26 18:00:37
序
機器學習是巨大技術創新浪潮的核心,而這一浪潮才剛剛開始。機器學習繼承了21世紀初的“數據驅動”浪潮,開啟了一個模型驅動決策的新時代,允許機器在交互點根據最新的可用信息做出近乎即時、高度可靠的決策,從而提高組織績效并增強客戶體驗。
為了能高效使用機器學習模型,機器學習實踐必須從主要的學術追求迅速發展為一門成熟的工程學科。研究人員、研究科學家和數據科學家所曾研究的專屬領域,現在至少同樣是機器學習工程師、MLOps工程師、軟件工程師、數據工程師等的責任。
在機器學習角色的演變過程中,我們看到了一種健康的轉變,即關注點從簡單地嘗試讓模型運行,轉變為確保它們以滿足組織需求的方式運行。這意味著構建允許組織有效地生產和交付模型的系統,對其進行增強以抵抗故障,使其能夠從任何實際發生的故障中恢復,最重要的是,在學習循環的背景下實現所有這些工作,幫助組織從一個項目到下一個項目進行改進。
幸運的是,機器學習社區并不需要從頭開始學習所需的知識來完成這一切。所謂的MLOps的實踐者受益于由傳統軟件項目的DevOps實踐發展而來的大量知識。
第一波MLOps專注于技術和流程規范在模型的開發和部署中的應用,從而使組織更有能力將模型從“實驗室”轉移到“工廠”,并且帶來了支持機器學習生命周期這些階段的工具和平臺的爆炸式增長。
但是MLOps中的運維呢?在這方面,我們再次受益于運維傳統軟件系統所取得的進步。推動DevOps運維發展成熟的一個重要因素是社區對站點可靠性工程(SRE)的更廣泛認識和應用。SRE是谷歌和許多其他組織開發的一套原則和實踐,旨在將工程規范應用于大型關鍵任務軟件系統的運維挑戰。
然而,將軟件工程的方法論應用到機器學習并不是簡單的舉一反三。雖然一方可以從另一方學到很多東西,但在實踐中,關注點、挑戰和解決方案可能存在很大差異。這就是本書的用武之地。作者并沒有讓每個人或團隊都確定如何將SRE原則應用于自己的機器學習工作流,而是旨在通過分享他們在谷歌、蘋果、微軟等組織的工作經驗,讓你領先一步。
多年來,我的工作深受幾位作者的啟發和影響。
2019年秋天,我組織了第一屆TWIMLcon:AI Platforms會議,為當時新興的MLOps社區提供了一個分享經驗、推進構建支持端到端機器學習工作流的流程、工具和平臺實踐的平臺。很多與會者在演講中展示了D. Sculley的開創性論文“Hidden Technical Debt in Machine Learning Systems”[1]內的“真實世界的機器學習系統”一圖,這已經成了一個流傳已久的笑話。
在2021年的第二屆會議上,Todd Underwood與我們一起發表了“When Good Models Go Bad: The Damage Caused by Wayward Models and How to Prevent It”[2]。該演講分享了一個手工分析的結果,該分析跟蹤了10多年來大約100起事件,在這些事件中,糟糕的機器學習模型已經或即將投入生產。
此后,我有幸在The TWIML AI Podcast播客中采訪了D. Sculley,主題為“Data Debt in Machine Learning”[3]。D. Sculley和Todd Underwood在這些互動中分享的豐富經驗在本書中得到了清晰的體現。3
如果你是從SRE的角度出發,就無須介紹Niall了。他的著作Site Reliability Engineering和The Site Reliability Workbook在2016年及以后幫助DevOps從業者了解了SRE。
雖然我之前沒有接觸過Cathy和Kranti的工作,但很明顯,他們在構建SRE組織和推動大規模面向消費者的機器學習應用程序方面的經驗為本書的許多方面提供了信息,特別是關于實現機器學習組織和將機器學習集成到產品中的內容。
本書匯聚了作者構建、運維和擴展大型機器學習系統的實踐經驗。
作者并沒有簡單地記錄一組靜態架構、工具或建議,而是成功地提供了更多內容:對團隊在構建和運行機器學習系統時所面臨的巨大復雜性和無數考慮因素的調查,以及作者通過自己廣泛涉獵收集到的原則和最佳實踐。
過去幾年,作為一個社區,如果說我們學到了什么,那就是獲得以高效、可重復和可擴展的方式創建、交付和運維機器學習模型的能力并非易事。不過,我們也認識到,正是因為大家愿意公開分享經驗并借鑒他人的經驗,機器學習社區才得以快速發展。我感謝Cathy、Niall、Kranti、D. Sculley和Todd Underwood讓我們都能從他們來之不易的經驗教訓中受益,并在此過程中幫助推進機器學習在生產中的應用。
Sam Charrington
TWIML 創始人,The TWIML AI Podcast主持人
[1] D. Sculley et al.“Hidden Technical Debt in Machine Learning Systems,”Advances in Neural InformationProcessing Systems(January 2015):2494-2502. https://oreil.ly/lK0WR.
[2] Todd Underwood,“When Good Models Go Bad:The Damage Caused by Wayward Models and How to Prevent It,”TWIMLcon,2021,https://oreil.ly/7pspJ.
[3] D. Sculley,“Data Debt in Machine Learning,”interview by Sam Charrington,The TWIML AI Podcast,May 19,2022,https://oreil.ly/887p4.