官术网_书友最值得收藏!

1.1 接觸ML生態(tài)系統(tǒng)

從圖1.1所示的典型ML應(yīng)用程序流程圖可以看出,ML具有廣泛的應(yīng)用。然而,ML算法只是更大生態(tài)系統(tǒng)的一小部分。盡管這個(gè)更大的生態(tài)系統(tǒng)有很多部分在運(yùn)作,但是ML正在改變世界各個(gè)角落的生活。

部署ML應(yīng)用程序通常從數(shù)據(jù)收集過(guò)程開始,該過(guò)程使用不同類型的傳感器,如照相機(jī)、激光器、分光鏡或其他類型的直接訪問(wèn)數(shù)據(jù)的手段,包括本地和遠(yuǎn)程數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的規(guī)模或大或小。在最簡(jiǎn)單的情況下,可以通過(guò)計(jì)算機(jī)鍵盤或智能手機(jī)屏幕點(diǎn)擊收集輸入。在這個(gè)階段,收集或感知到的數(shù)據(jù)稱為原始數(shù)據(jù)。

圖1.1 ML生態(tài)系統(tǒng)——ML通過(guò)數(shù)據(jù)操作和解釋的幾個(gè)階段與世界交互,以實(shí)現(xiàn)整體的系統(tǒng)集成

原始數(shù)據(jù)通常需要在呈現(xiàn)給ML模型之前進(jìn)行預(yù)處理。它很少是ML算法的實(shí)際輸入,除非該ML模型是為了找到原始數(shù)據(jù)的豐富表示,然后用作另一個(gè)ML算法的輸入。換句話說(shuō),有一些專門用作預(yù)處理代理的ML算法,它們與用于對(duì)預(yù)處理后數(shù)據(jù)進(jìn)行分類或回歸的主要ML模型完全無(wú)關(guān)。一般來(lái)說(shuō),數(shù)據(jù)預(yù)處理階段的目標(biāo)是將原始數(shù)據(jù)轉(zhuǎn)換為具有特定數(shù)據(jù)類型的數(shù)組或矩陣。一些流行的預(yù)處理策略包括:

·詞–向量轉(zhuǎn)換,例如GloVe或Word2Vec

·序列–向量或序列–矩陣策略

·值域的歸一化,例如(0,255)到(0.1,1.0)

·統(tǒng)計(jì)值歸一化,例如零均值法和單位方差法

在進(jìn)行了這些預(yù)處理措施之后,大多數(shù)ML算法就可以使用這些數(shù)據(jù)了。然而,我們必須注意,預(yù)處理階段并不是微不足道的,它需要操作系統(tǒng)方面,有時(shí)甚至是電子方面的高級(jí)知識(shí)和技能。一般來(lái)說(shuō),真正的ML應(yīng)用程序有很長(zhǎng)的管道,涉及計(jì)算機(jī)科學(xué)和工程學(xué)的不同方面。

預(yù)處理完畢的數(shù)據(jù)就是你通常會(huì)在書中看到的數(shù)據(jù),本書也是如此。原因在于,我們需要關(guān)注的是深度學(xué)習(xí)而不是數(shù)據(jù)處理。如果你希望在這個(gè)領(lǐng)域有更深入的了解,可以閱讀Ojeda,T.et.al.(2014)或Kane,F.(2017)的數(shù)據(jù)科學(xué)文獻(xiàn)。

在數(shù)學(xué)上,將處理完畢的數(shù)據(jù)用包含N行(或數(shù)據(jù)點(diǎn))的矩陣X表示。如果想要引用數(shù)據(jù)集的第i個(gè)元素(或行),可以將其寫作。數(shù)據(jù)集將有d列,它們通常稱為特征。一種研究特征的方法是將特征看作維度。例如,如果數(shù)據(jù)集有兩個(gè)特征,身高和體重,那么可以使用二維圖來(lái)表示整個(gè)數(shù)據(jù)集。第一個(gè)維度(身高)可以是橫軸,第二個(gè)維度(體重)可以是縱軸,如圖1.2所示。

圖1.2 二維數(shù)據(jù)樣本

在生產(chǎn)過(guò)程中,當(dāng)數(shù)據(jù)呈現(xiàn)給ML算法時(shí),將執(zhí)行一系列張量乘積和加法運(yùn)算。這種向量運(yùn)算通常使用非線性函數(shù)進(jìn)行變換或歸一化。然后是更多的乘積和加法運(yùn)算、更多的非線性變換、中間值的臨時(shí)存儲(chǔ),并最終產(chǎn)生與輸入相對(duì)應(yīng)的期望輸出。現(xiàn)在,你可以把這個(gè)過(guò)程看作關(guān)于ML的黑盒,它的內(nèi)部結(jié)構(gòu)會(huì)在你繼續(xù)閱讀的過(guò)程中逐漸顯現(xiàn)出來(lái)。

ML產(chǎn)生的對(duì)應(yīng)于輸入的輸出通常需要進(jìn)行某種類型的解釋。例如,如果輸出是對(duì)象被分類為屬于一個(gè)組或另一個(gè)組的概率向量,那么可能需要對(duì)其進(jìn)行解釋。你可能需要知道概率有多低才能解釋為不確定性,或者說(shuō)可能需要知道概率有多不同才能解釋為更多的不確定性。通過(guò)使用業(yè)務(wù)規(guī)則,輸出處理充當(dāng)ML和決策世界之間的連接因素。例如,這些業(yè)務(wù)規(guī)則可以是如果–那么規(guī)則:“如果最大值的預(yù)測(cè)概率是第二個(gè)最大值的兩倍,那么發(fā)出預(yù)測(cè);否則,不要繼續(xù)做決定。”或者,它們可以是基于公式的規(guī)則或更為復(fù)雜的方程組。

最后,在決策階段,ML算法已經(jīng)準(zhǔn)備好了與世界互動(dòng):通過(guò)使用執(zhí)行器打開燈泡;或者在預(yù)測(cè)不確定時(shí)購(gòu)買股票;或者提醒經(jīng)理,該公司將在三天內(nèi)耗盡存貨,需要購(gòu)買更多的物品;或者向智能手機(jī)揚(yáng)聲器發(fā)送音頻消息“這是去電影院的路線”,并通過(guò)應(yīng)用程序編程接口(API,Application Programming Interface)調(diào)用或操作系統(tǒng)(OS)命令打開地圖應(yīng)用程序。

本節(jié)是對(duì)生產(chǎn)過(guò)程中ML系統(tǒng)的一種寬泛概述。然而,這假設(shè)ML算法已經(jīng)經(jīng)過(guò)了適當(dāng)訓(xùn)練和測(cè)試。相信我,那是容易的部分。在本書的最后,你將熟練地訓(xùn)練高度復(fù)雜的深度學(xué)習(xí)算法。但是,現(xiàn)在我們先學(xué)習(xí)通用的訓(xùn)練過(guò)程。

主站蜘蛛池模板: 高邑县| 遂溪县| 东明县| 日土县| 虹口区| 宝清县| 湖口县| 新源县| 壶关县| 朔州市| 清流县| 常山县| 英吉沙县| 攀枝花市| 凌云县| 库伦旗| 巴里| 平阳县| 八宿县| 巴青县| 金华市| 兴国县| 封丘县| 读书| 南华县| 葵青区| 海林市| 高阳县| 兖州市| 和龙市| 海兴县| 太仆寺旗| 元氏县| 昆山市| 桓仁| 嘉义市| 襄樊市| 积石山| 儋州市| 兴化市| 五指山市|