- 構(gòu)建可靠的機(jī)器學(xué)習(xí)系統(tǒng)
- (美)凱茜·陳 (愛爾蘭)尼爾·理查德·墨菲 (美)克蘭蒂·帕里薩 (美)D.斯卡利 (美)托德·安德伍德
- 653字
- 2025-06-26 18:00:39
第2章 數(shù)據(jù)管理原則
在本書中,我們很少關(guān)注模型的構(gòu)建方式和算法細(xì)節(jié)。上一年最令人興奮的算法開發(fā)在下一年就變得普普通通了。相反,我們對(duì)兩件事非常感興趣:用于構(gòu)建模型的數(shù)據(jù),以及獲取數(shù)據(jù)并將其傳入模型的處理管道。
歸根結(jié)底,機(jī)器學(xué)習(xí)系統(tǒng)是數(shù)據(jù)處理管道,其目的是從數(shù)據(jù)中提取可用且可復(fù)現(xiàn)的見解。然而,機(jī)器學(xué)習(xí)管道與傳統(tǒng)的日志處理或分析管道之間存在一些關(guān)鍵的不同。機(jī)器學(xué)習(xí)管道有一些與傳統(tǒng)分析管道非常不同的、特有的約束,并且會(huì)以不同的方式失敗。它們的成功難以衡量,許多失敗也難以察覺。(我們將在第9章詳細(xì)介紹這些話題。)從根本上說(shuō),它們使用數(shù)據(jù),并將使用的結(jié)果輸出顯示(盡管兩者的形式截然不同)。因此,機(jī)器學(xué)習(xí)系統(tǒng)完全依賴于其底層數(shù)據(jù)系統(tǒng)的結(jié)構(gòu)、性能、準(zhǔn)確性和可靠性。這是從可靠性的角度考慮機(jī)器學(xué)習(xí)系統(tǒng)的最有用的方式。
在本章中,我們將從深入研究數(shù)據(jù)本身開始:
● 數(shù)據(jù)從哪里來(lái)
● 如何解讀數(shù)據(jù)
● 數(shù)據(jù)質(zhì)量
● 更新數(shù)據(jù)源(使用哪些與怎么使用)
● 將數(shù)據(jù)組裝成適于應(yīng)用的形式
我們將涵蓋對(duì)數(shù)據(jù)的生產(chǎn)要求,并說(shuō)明與模型一樣,生產(chǎn)中的數(shù)據(jù)也有生命周期:
● 提取
● 數(shù)據(jù)清洗和數(shù)據(jù)一致性
● 數(shù)據(jù)豐富和擴(kuò)展
● 存儲(chǔ)和復(fù)制
● 應(yīng)用于訓(xùn)練
● 刪除
數(shù)據(jù)和元數(shù)據(jù)定義的穩(wěn)定性以及這些定義的版本控制至關(guān)重要,我們將解釋如何實(shí)現(xiàn)它們[1]。我們還將涵蓋數(shù)據(jù)訪問約束、隱私和可審計(jì)性問題,并展示一些確保數(shù)據(jù)起源(數(shù)據(jù)從哪里來(lái))和數(shù)據(jù)血緣(自我們獲得數(shù)據(jù)以來(lái)誰(shuí)一直對(duì)其負(fù)責(zé))的方法。在本章結(jié)束時(shí),我們希望你對(duì)“使數(shù)據(jù)處理鏈可靠且易管理”所涉及的主要問題有一個(gè)完整但淺層的理解。
- 智能學(xué)習(xí)的未來(lái)
- 神經(jīng)網(wǎng)絡(luò)與機(jī)器人科研項(xiàng)目申請(qǐng)與實(shí)踐
- 人工智能及其應(yīng)用
- 深度學(xué)習(xí)與計(jì)算機(jī)視覺:項(xiàng)目式教材
- 不會(huì)被機(jī)器替代的人:智能時(shí)代的生存策略
- 玩轉(zhuǎn)ChatGPT:秒變AI提問和追問高手
- 破解深度學(xué)習(xí)(基礎(chǔ)篇):模型算法與實(shí)現(xiàn)
- 可解釋人工智能導(dǎo)論
- 科學(xué)+預(yù)見人工智能
- 不止DeepSeek!:職場(chǎng)AI效率提升一本通
- 圖靈的大教堂:數(shù)字宇宙開啟智能時(shí)代
- 用ChatGPT輕松玩轉(zhuǎn)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)
- AIGC提示詞美學(xué)定義
- Linux人工智能開發(fā)實(shí)例
- TensorFlow機(jī)器學(xué)習(xí)