- 深度學(xué)習(xí)初學(xué)者指南
- (智)巴勃羅·里瓦斯
- 1530字
- 2021-12-01 13:58:37
1.1 接觸ML生態(tài)系統(tǒng)
從圖1.1所示的典型ML應(yīng)用程序流程圖可以看出,ML具有廣泛的應(yīng)用。然而,ML算法只是更大生態(tài)系統(tǒng)的一小部分。盡管這個(gè)更大的生態(tài)系統(tǒng)有很多部分在運(yùn)作,但是ML正在改變世界各個(gè)角落的生活。
部署ML應(yīng)用程序通常從數(shù)據(jù)收集過(guò)程開始,該過(guò)程使用不同類型的傳感器,如照相機(jī)、激光器、分光鏡或其他類型的直接訪問(wèn)數(shù)據(jù)的手段,包括本地和遠(yuǎn)程數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的規(guī)模或大或小。在最簡(jiǎn)單的情況下,可以通過(guò)計(jì)算機(jī)鍵盤或智能手機(jī)屏幕點(diǎn)擊收集輸入。在這個(gè)階段,收集或感知到的數(shù)據(jù)稱為原始數(shù)據(jù)。

圖1.1 ML生態(tài)系統(tǒng)——ML通過(guò)數(shù)據(jù)操作和解釋的幾個(gè)階段與世界交互,以實(shí)現(xiàn)整體的系統(tǒng)集成
原始數(shù)據(jù)通常需要在呈現(xiàn)給ML模型之前進(jìn)行預(yù)處理。它很少是ML算法的實(shí)際輸入,除非該ML模型是為了找到原始數(shù)據(jù)的豐富表示,然后用作另一個(gè)ML算法的輸入。換句話說(shuō),有一些專門用作預(yù)處理代理的ML算法,它們與用于對(duì)預(yù)處理后數(shù)據(jù)進(jìn)行分類或回歸的主要ML模型完全無(wú)關(guān)。一般來(lái)說(shuō),數(shù)據(jù)預(yù)處理階段的目標(biāo)是將原始數(shù)據(jù)轉(zhuǎn)換為具有特定數(shù)據(jù)類型的數(shù)組或矩陣。一些流行的預(yù)處理策略包括:
·詞–向量轉(zhuǎn)換,例如GloVe或Word2Vec
·序列–向量或序列–矩陣策略
·值域的歸一化,例如(0,255)到(0.1,1.0)
·統(tǒng)計(jì)值歸一化,例如零均值法和單位方差法
在進(jìn)行了這些預(yù)處理措施之后,大多數(shù)ML算法就可以使用這些數(shù)據(jù)了。然而,我們必須注意,預(yù)處理階段并不是微不足道的,它需要操作系統(tǒng)方面,有時(shí)甚至是電子方面的高級(jí)知識(shí)和技能。一般來(lái)說(shuō),真正的ML應(yīng)用程序有很長(zhǎng)的管道,涉及計(jì)算機(jī)科學(xué)和工程學(xué)的不同方面。
預(yù)處理完畢的數(shù)據(jù)就是你通常會(huì)在書中看到的數(shù)據(jù),本書也是如此。原因在于,我們需要關(guān)注的是深度學(xué)習(xí)而不是數(shù)據(jù)處理。如果你希望在這個(gè)領(lǐng)域有更深入的了解,可以閱讀Ojeda,T.et.al.(2014)或Kane,F.(2017)的數(shù)據(jù)科學(xué)文獻(xiàn)。
在數(shù)學(xué)上,將處理完畢的數(shù)據(jù)用包含N行(或數(shù)據(jù)點(diǎn))的矩陣X表示。如果想要引用數(shù)據(jù)集的第i個(gè)元素(或行),可以將其寫作。數(shù)據(jù)集將有d列,它們通常稱為特征。一種研究特征的方法是將特征看作維度。例如,如果數(shù)據(jù)集有兩個(gè)特征,身高和體重,那么可以使用二維圖來(lái)表示整個(gè)數(shù)據(jù)集。第一個(gè)維度
(身高)可以是橫軸,第二個(gè)維度
(體重)可以是縱軸,如圖1.2所示。

圖1.2 二維數(shù)據(jù)樣本
在生產(chǎn)過(guò)程中,當(dāng)數(shù)據(jù)呈現(xiàn)給ML算法時(shí),將執(zhí)行一系列張量乘積和加法運(yùn)算。這種向量運(yùn)算通常使用非線性函數(shù)進(jìn)行變換或歸一化。然后是更多的乘積和加法運(yùn)算、更多的非線性變換、中間值的臨時(shí)存儲(chǔ),并最終產(chǎn)生與輸入相對(duì)應(yīng)的期望輸出。現(xiàn)在,你可以把這個(gè)過(guò)程看作關(guān)于ML的黑盒,它的內(nèi)部結(jié)構(gòu)會(huì)在你繼續(xù)閱讀的過(guò)程中逐漸顯現(xiàn)出來(lái)。
ML產(chǎn)生的對(duì)應(yīng)于輸入的輸出通常需要進(jìn)行某種類型的解釋。例如,如果輸出是對(duì)象被分類為屬于一個(gè)組或另一個(gè)組的概率向量,那么可能需要對(duì)其進(jìn)行解釋。你可能需要知道概率有多低才能解釋為不確定性,或者說(shuō)可能需要知道概率有多不同才能解釋為更多的不確定性。通過(guò)使用業(yè)務(wù)規(guī)則,輸出處理充當(dāng)ML和決策世界之間的連接因素。例如,這些業(yè)務(wù)規(guī)則可以是如果–那么規(guī)則:“如果最大值的預(yù)測(cè)概率是第二個(gè)最大值的兩倍,那么發(fā)出預(yù)測(cè);否則,不要繼續(xù)做決定。”或者,它們可以是基于公式的規(guī)則或更為復(fù)雜的方程組。
最后,在決策階段,ML算法已經(jīng)準(zhǔn)備好了與世界互動(dòng):通過(guò)使用執(zhí)行器打開燈泡;或者在預(yù)測(cè)不確定時(shí)購(gòu)買股票;或者提醒經(jīng)理,該公司將在三天內(nèi)耗盡存貨,需要購(gòu)買更多的物品;或者向智能手機(jī)揚(yáng)聲器發(fā)送音頻消息“這是去電影院的路線”,并通過(guò)應(yīng)用程序編程接口(API,Application Programming Interface)調(diào)用或操作系統(tǒng)(OS)命令打開地圖應(yīng)用程序。
本節(jié)是對(duì)生產(chǎn)過(guò)程中ML系統(tǒng)的一種寬泛概述。然而,這假設(shè)ML算法已經(jīng)經(jīng)過(guò)了適當(dāng)訓(xùn)練和測(cè)試。相信我,那是容易的部分。在本書的最后,你將熟練地訓(xùn)練高度復(fù)雜的深度學(xué)習(xí)算法。但是,現(xiàn)在我們先學(xué)習(xí)通用的訓(xùn)練過(guò)程。
- 你好中小學(xué)人工智能
- AI落地:讓人工智能為你所用
- AI時(shí)代程序員開發(fā)之道:ChatGPT讓程序員插上翅膀
- 生命3.0
- 腦機(jī)穿越:腦機(jī)接口改變?nèi)祟愇磥?lái)
- Joy RL:強(qiáng)化學(xué)習(xí)實(shí)踐教程
- 大模型實(shí)戰(zhàn):微調(diào)、優(yōu)化與私有化部署
- 一本書讀懂大模型:技術(shù)創(chuàng)新、商業(yè)應(yīng)用與產(chǎn)業(yè)變革
- AI進(jìn)化論:解碼人工智能商業(yè)場(chǎng)景與案例
- MLOps工程實(shí)踐:工具、技術(shù)與企業(yè)級(jí)應(yīng)用
- Web3超入門
- 增強(qiáng)型分析:人工智能技術(shù)驅(qū)動(dòng)的數(shù)據(jù)分析、業(yè)務(wù)決策與案例實(shí)踐
- 擴(kuò)散模型從原理到實(shí)戰(zhàn)
- AI改變?cè)O(shè)計(jì) : 人工智能時(shí)代的設(shè)計(jì)師生存手冊(cè)
- 因果推斷:基于圖模型分析