mg不朽情缘有技巧没

書名：構建可靠的機器學習系統
作者名： (美)凱茜·陳 (愛爾蘭)尼爾·理查德·墨菲 (美)克蘭蒂·帕里薩 (美)D.斯卡利 (美)托德·安德伍德
本章字數： 1749字
更新時間： 2025-06-26 18:00:41

2.6 總結

這是對思考機器學習的數據系統的一個大體上的介紹（盡管你可能并不這樣覺得）。在這一點上，你也許不愿意為數據提取和處理構建一個完整的系統，但這樣一個系統的基本要素應該是明確的。更重要的是，你應該能夠確定最大的風險和陷阱在哪里。為了開始在這方面取得有效的進展，大多數讀者會希望將他們所做的工作分為以下幾個方面：

政策和治理

許多組織從產品組或工程組開始實施機器學習的工作。然而，正如我們所強調的，從長遠來看，擁有一套從上到下一致的政策和治理方法是至關重要的。還沒有開始這項工作的組織應該立即行動起來。第6章是一個很好的開始。

為了在這個領域產生最大的影響，你應該確定可能存在的最大的問題或差距，并優先解決它們。考慮到我們對錯誤使用機器學習的風險和可用工具的理解現狀，完美是不可能的。但是，減少發生嚴重的違規事件絕對是可行的，而且是一個合理的目標。

數據科學和軟件基礎設施

如果我們已經開始使用機器學習，很可能我們的數據科學團隊已經在組織的各個地方建立了定制的數據轉換管道。清洗、歸一化和轉換數據是進行機器學習所需的正常操作。為了避免未來的技術性機器學習債務，應該盡快開始構建軟件基礎設施，以集中化這些轉換管道^[13]。

那些已經解決了自己的問題的團隊可能會抵制這種集中化。然而，通過將數據轉換作為一項服務來運營，有時可以吸引所有的新用戶，甚至吸引一些現有用戶轉移到集中式系統。隨著時間的推移，我們應該嘗試將數據轉換整合到一個單一的、管理良好的地方。

基礎設施

顯然我們需要大量的用于數據存儲和處理的基礎設施來管理好機器學習數據。這里最大的元素是特征存儲系統（通常被簡單地稱為特征存儲）。我們將在第4章詳細討論特征存儲方面的話題。

[1] 如果數據是可變的和更新的，則可能還需要對數據本身的不同版本進行版本控制。

[2] 為了使數據有用，它必須具有很高的質量（準確、足夠詳細、能夠代表模型所關心的事物）。對于監督學習，數據必須一致且準確地被標記。也就是說，如果我們有紗線圖片和針圖片，我們需要知道每張圖片是哪一個，以便可以使用該事實來訓練模型，繼而識別這些圖片。沒有高質量的數據，我們就無法期待高質量的結果。

[3] AOL搜索記錄的案例是此類事故中最著名的，參見Michael Barbaro和Tom Zeller Jr.撰寫的“A Face Is Exposed for AOL Searcher No.4417749”（https://oreil.ly/WALx5）。這一事件在維基百科的“AOL search log release”頁面也有解釋（https://oreil.ly/cBpOve）。

[4] 對于數據集，模型卡的一種補充方法稱為數據卡，參見數據卡使用手冊（https://oreil.ly/aaSMr）。

[5] 更多細節可參見Alexander J. Ratner等人的“Learning to Compose Domain-Specific Transformations for Data Augmentation”（https://oreil.ly/uxLdr）。

[6] 很少有證據證明這是真的，但它確實很有趣且蘊含一定的道理。如果有人將“搜索所在地的溫度”作為一項特征并實施，并且發現它很有價值，請與作者聯系，以獲得一本作者親筆簽名的書。

[7] 大多數常見的、來自大型云提供商的大型數據存儲和分析服務都是列式存儲的。Google Cloud BigQuery、Amazon RedShift和Microsoft Azure SQL Data Warehouse都是列式存儲的，數據服務提供商Snowflake的主要數據存儲模式也是如此。PostgreSQL和MariaDB服務器也都有列式存儲的配置選項。

[8] 數據科學家、數據分析師、研究科學家和應用科學家使用各種數據可視化工具和技術，包括信息圖、熱圖、體溫記錄圖、面積圖和直方圖。欲了解更多的內容，請參考維基百科的“Data and information visualization”頁面（https://oreil.ly/DL2B2）。

[9] 一些讀者可能讀到“版本控制”就會想到“Git”。像Git這樣的內容索引類軟件版本控制系統對于跟蹤機器學習數據的版本其實并不合適也沒有必要。我們不是在做數以千計的小的和結構化的修改，而是一般地添加和刪除整個文件或部分。我們需要的版本控制是跟蹤數據從何而來，誰創建/更新了它，以及它是何時創建的。許多機器學習建模和訓練的系統已經包括版本控制的內容。MLflow就是一個例子。

[10] 2.4.1節討論過的數據持久性，通常被列為數據完整性中的一個關鍵概念。由于本章都是關于數據管理的，所以持久性已經與可靠性概念歸為一類，這里的完整性是指我們可以斷言的關于數據的屬性，而不僅是它是否存在以及可訪問性。

[11] 可以參考Databricks的一篇總結“Best Practices：GDPR and CCPA Compliance Using Delta Lake”，特別是關于假名的部分（https://oreil.ly/I5hPt）。

[12] 參見由Brendan McMahan和Daniel Ramage編寫的“Federated Learning: Collaborative Machine Learning Without Centralized Training Data”（https://oreil.ly/ptj9h），以了解該主題在2017年的總體概況。當然，自那時以來，聯邦學習一直在不斷發展。

[13] 機器學習系統中的技術債務往往與我們在其他軟件系統中看到的十分不同。一篇詳細解釋這個問題的論文是D. Sculley（本書作者之一）等人撰寫的“Hidden Technical Debt in Machine Learning Systems”（https://oreil.ly/3SV7Q）。

官术网_书友最值得收藏!

構建可靠的機器學習系統

2.6 總結