官术网_书友最值得收藏!

第2章 數(shù)據(jù)管理原則

在本書中,我們很少關(guān)注模型的構(gòu)建方式和算法細(xì)節(jié)。上一年最令人興奮的算法開發(fā)在下一年就變得普普通通了。相反,我們對(duì)兩件事非常感興趣:用于構(gòu)建模型的數(shù)據(jù),以及獲取數(shù)據(jù)并將其傳入模型的處理管道。

歸根結(jié)底,機(jī)器學(xué)習(xí)系統(tǒng)是數(shù)據(jù)處理管道,其目的是從數(shù)據(jù)中提取可用且可復(fù)現(xiàn)的見解。然而,機(jī)器學(xué)習(xí)管道與傳統(tǒng)的日志處理或分析管道之間存在一些關(guān)鍵的不同。機(jī)器學(xué)習(xí)管道有一些與傳統(tǒng)分析管道非常不同的、特有的約束,并且會(huì)以不同的方式失敗。它們的成功難以衡量,許多失敗也難以察覺。(我們將在第9章詳細(xì)介紹這些話題。)從根本上說(shuō),它們使用數(shù)據(jù),并將使用的結(jié)果輸出顯示(盡管兩者的形式截然不同)。因此,機(jī)器學(xué)習(xí)系統(tǒng)完全依賴于其底層數(shù)據(jù)系統(tǒng)的結(jié)構(gòu)、性能、準(zhǔn)確性和可靠性。這是從可靠性的角度考慮機(jī)器學(xué)習(xí)系統(tǒng)的最有用的方式。

在本章中,我們將從深入研究數(shù)據(jù)本身開始:

● 數(shù)據(jù)從哪里來(lái)

● 如何解讀數(shù)據(jù)

● 數(shù)據(jù)質(zhì)量

● 更新數(shù)據(jù)源(使用哪些與怎么使用)

● 將數(shù)據(jù)組裝成適于應(yīng)用的形式

我們將涵蓋對(duì)數(shù)據(jù)的生產(chǎn)要求,并說(shuō)明與模型一樣,生產(chǎn)中的數(shù)據(jù)也有生命周期

● 提取

● 數(shù)據(jù)清洗和數(shù)據(jù)一致性

● 數(shù)據(jù)豐富和擴(kuò)展

● 存儲(chǔ)和復(fù)制

● 應(yīng)用于訓(xùn)練

● 刪除

數(shù)據(jù)和元數(shù)據(jù)定義的穩(wěn)定性以及這些定義的版本控制至關(guān)重要,我們將解釋如何實(shí)現(xiàn)它們[1]。我們還將涵蓋數(shù)據(jù)訪問約束、隱私和可審計(jì)性問題,并展示一些確保數(shù)據(jù)起源(數(shù)據(jù)從哪里來(lái))和數(shù)據(jù)血緣(自我們獲得數(shù)據(jù)以來(lái)誰(shuí)一直對(duì)其負(fù)責(zé))的方法。在本章結(jié)束時(shí),我們希望你對(duì)“使數(shù)據(jù)處理鏈可靠且易管理”所涉及的主要問題有一個(gè)完整但淺層的理解。

主站蜘蛛池模板: 横山县| 隆化县| 即墨市| 怀安县| 嘉禾县| 阳原县| 黔西| 平山县| 象山县| 屯昌县| 子长县| 怀仁县| 堆龙德庆县| 武川县| 斗六市| 吴桥县| 延庆县| 花莲县| 曲松县| 扎赉特旗| 常熟市| 呼和浩特市| 兴和县| 津南区| 察雅县| 潼南县| 安化县| 元氏县| 宣城市| 洛川县| 密云县| 饶河县| 岚皋县| 柳河县| 宁波市| 陵水| 柘城县| 石林| 密山市| 抚州市| 腾冲县|