書名：構(gòu)建可靠的機(jī)器學(xué)習(xí)系統(tǒng)
作者名： (美)凱茜·陳 (愛爾蘭)尼爾·理查德·墨菲 (美)克蘭蒂·帕里薩 (美)D.斯卡利 (美)托德·安德伍德
本章字?jǐn)?shù)： 653字
更新時(shí)間： 2025-06-26 18:00:39

第2章數(shù)據(jù)管理原則

在本書中，我們很少關(guān)注模型的構(gòu)建方式和算法細(xì)節(jié)。上一年最令人興奮的算法開發(fā)在下一年就變得普普通通了。相反，我們對(duì)兩件事非常感興趣：用于構(gòu)建模型的數(shù)據(jù)，以及獲取數(shù)據(jù)并將其傳入模型的處理管道。

歸根結(jié)底，機(jī)器學(xué)習(xí)系統(tǒng)是數(shù)據(jù)處理管道，其目的是從數(shù)據(jù)中提取可用且可復(fù)現(xiàn)的見解。然而，機(jī)器學(xué)習(xí)管道與傳統(tǒng)的日志處理或分析管道之間存在一些關(guān)鍵的不同。機(jī)器學(xué)習(xí)管道有一些與傳統(tǒng)分析管道非常不同的、特有的約束，并且會(huì)以不同的方式失敗。它們的成功難以衡量，許多失敗也難以察覺。（我們將在第9章詳細(xì)介紹這些話題。）從根本上說(shuō)，它們使用數(shù)據(jù)，并將使用的結(jié)果輸出顯示（盡管兩者的形式截然不同）。因此，機(jī)器學(xué)習(xí)系統(tǒng)完全依賴于其底層數(shù)據(jù)系統(tǒng)的結(jié)構(gòu)、性能、準(zhǔn)確性和可靠性。這是從可靠性的角度考慮機(jī)器學(xué)習(xí)系統(tǒng)的最有用的方式。

在本章中，我們將從深入研究數(shù)據(jù)本身開始：

● 數(shù)據(jù)從哪里來(lái)

● 如何解讀數(shù)據(jù)

● 數(shù)據(jù)質(zhì)量

● 更新數(shù)據(jù)源（使用哪些與怎么使用）

● 將數(shù)據(jù)組裝成適于應(yīng)用的形式

我們將涵蓋對(duì)數(shù)據(jù)的生產(chǎn)要求，并說(shuō)明與模型一樣，生產(chǎn)中的數(shù)據(jù)也有生命周期：

● 提取

● 數(shù)據(jù)清洗和數(shù)據(jù)一致性

● 數(shù)據(jù)豐富和擴(kuò)展

● 存儲(chǔ)和復(fù)制

● 應(yīng)用于訓(xùn)練

● 刪除

數(shù)據(jù)和元數(shù)據(jù)定義的穩(wěn)定性以及這些定義的版本控制至關(guān)重要，我們將解釋如何實(shí)現(xiàn)它們^[1]。我們還將涵蓋數(shù)據(jù)訪問約束、隱私和可審計(jì)性問題，并展示一些確保數(shù)據(jù)起源（數(shù)據(jù)從哪里來(lái)）和數(shù)據(jù)血緣（自我們獲得數(shù)據(jù)以來(lái)誰(shuí)一直對(duì)其負(fù)責(zé)）的方法。在本章結(jié)束時(shí)，我們希望你對(duì)“使數(shù)據(jù)處理鏈可靠且易管理”所涉及的主要問題有一個(gè)完整但淺層的理解。

官术网_书友最值得收藏!

構(gòu)建可靠的機(jī)器學(xué)習(xí)系統(tǒng)

第2章 數(shù)據(jù)管理原則

第2章數(shù)據(jù)管理原則