小年夜迎财神

書名：深度學(xué)習(xí)初學(xué)者指南
作者名： (智)巴勃羅·里瓦斯
本章字?jǐn)?shù)： 1530字
更新時(shí)間： 2021-12-01 13:58:37

1.1　接觸ML生態(tài)系統(tǒng)

從圖1.1所示的典型ML應(yīng)用程序流程圖可以看出，ML具有廣泛的應(yīng)用。然而，ML算法只是更大生態(tài)系統(tǒng)的一小部分。盡管這個(gè)更大的生態(tài)系統(tǒng)有很多部分在運(yùn)作，但是ML正在改變世界各個(gè)角落的生活。

部署ML應(yīng)用程序通常從數(shù)據(jù)收集過(guò)程開始，該過(guò)程使用不同類型的傳感器，如照相機(jī)、激光器、分光鏡或其他類型的直接訪問(wèn)數(shù)據(jù)的手段，包括本地和遠(yuǎn)程數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)的規(guī)模或大或小。在最簡(jiǎn)單的情況下，可以通過(guò)計(jì)算機(jī)鍵盤或智能手機(jī)屏幕點(diǎn)擊收集輸入。在這個(gè)階段，收集或感知到的數(shù)據(jù)稱為原始數(shù)據(jù)。

圖1.1　ML生態(tài)系統(tǒng)——ML通過(guò)數(shù)據(jù)操作和解釋的幾個(gè)階段與世界交互，以實(shí)現(xiàn)整體的系統(tǒng)集成

原始數(shù)據(jù)通常需要在呈現(xiàn)給ML模型之前進(jìn)行預(yù)處理。它很少是ML算法的實(shí)際輸入，除非該ML模型是為了找到原始數(shù)據(jù)的豐富表示，然后用作另一個(gè)ML算法的輸入。換句話說(shuō)，有一些專門用作預(yù)處理代理的ML算法，它們與用于對(duì)預(yù)處理后數(shù)據(jù)進(jìn)行分類或回歸的主要ML模型完全無(wú)關(guān)。一般來(lái)說(shuō)，數(shù)據(jù)預(yù)處理階段的目標(biāo)是將原始數(shù)據(jù)轉(zhuǎn)換為具有特定數(shù)據(jù)類型的數(shù)組或矩陣。一些流行的預(yù)處理策略包括：

·詞–向量轉(zhuǎn)換，例如GloVe或Word2Vec

·序列–向量或序列–矩陣策略

·值域的歸一化，例如（0,255）到（0.1,1.0）

·統(tǒng)計(jì)值歸一化，例如零均值法和單位方差法

在進(jìn)行了這些預(yù)處理措施之后，大多數(shù)ML算法就可以使用這些數(shù)據(jù)了。然而，我們必須注意，預(yù)處理階段并不是微不足道的，它需要操作系統(tǒng)方面，有時(shí)甚至是電子方面的高級(jí)知識(shí)和技能。一般來(lái)說(shuō)，真正的ML應(yīng)用程序有很長(zhǎng)的管道，涉及計(jì)算機(jī)科學(xué)和工程學(xué)的不同方面。

預(yù)處理完畢的數(shù)據(jù)就是你通常會(huì)在書中看到的數(shù)據(jù)，本書也是如此。原因在于，我們需要關(guān)注的是深度學(xué)習(xí)而不是數(shù)據(jù)處理。如果你希望在這個(gè)領(lǐng)域有更深入的了解，可以閱讀Ojeda,T.et.al.（2014）或Kane,F.（2017）的數(shù)據(jù)科學(xué)文獻(xiàn)。

在數(shù)學(xué)上，將處理完畢的數(shù)據(jù)用包含N行（或數(shù)據(jù)點(diǎn)）的矩陣X表示。如果想要引用數(shù)據(jù)集的第i個(gè)元素（或行），可以將其寫作。數(shù)據(jù)集將有d列，它們通常稱為特征。一種研究特征的方法是將特征看作維度。例如，如果數(shù)據(jù)集有兩個(gè)特征，身高和體重，那么可以使用二維圖來(lái)表示整個(gè)數(shù)據(jù)集。第一個(gè)維度（身高）可以是橫軸，第二個(gè)維度（體重）可以是縱軸，如圖1.2所示。

圖1.2　二維數(shù)據(jù)樣本

在生產(chǎn)過(guò)程中，當(dāng)數(shù)據(jù)呈現(xiàn)給ML算法時(shí)，將執(zhí)行一系列張量乘積和加法運(yùn)算。這種向量運(yùn)算通常使用非線性函數(shù)進(jìn)行變換或歸一化。然后是更多的乘積和加法運(yùn)算、更多的非線性變換、中間值的臨時(shí)存儲(chǔ)，并最終產(chǎn)生與輸入相對(duì)應(yīng)的期望輸出。現(xiàn)在，你可以把這個(gè)過(guò)程看作關(guān)于ML的黑盒，它的內(nèi)部結(jié)構(gòu)會(huì)在你繼續(xù)閱讀的過(guò)程中逐漸顯現(xiàn)出來(lái)。

ML產(chǎn)生的對(duì)應(yīng)于輸入的輸出通常需要進(jìn)行某種類型的解釋。例如，如果輸出是對(duì)象被分類為屬于一個(gè)組或另一個(gè)組的概率向量，那么可能需要對(duì)其進(jìn)行解釋。你可能需要知道概率有多低才能解釋為不確定性，或者說(shuō)可能需要知道概率有多不同才能解釋為更多的不確定性。通過(guò)使用業(yè)務(wù)規(guī)則，輸出處理充當(dāng)ML和決策世界之間的連接因素。例如，這些業(yè)務(wù)規(guī)則可以是如果–那么規(guī)則：“如果最大值的預(yù)測(cè)概率是第二個(gè)最大值的兩倍，那么發(fā)出預(yù)測(cè)；否則，不要繼續(xù)做決定。”或者，它們可以是基于公式的規(guī)則或更為復(fù)雜的方程組。

最后，在決策階段，ML算法已經(jīng)準(zhǔn)備好了與世界互動(dòng)：通過(guò)使用執(zhí)行器打開燈泡；或者在預(yù)測(cè)不確定時(shí)購(gòu)買股票；或者提醒經(jīng)理，該公司將在三天內(nèi)耗盡存貨，需要購(gòu)買更多的物品；或者向智能手機(jī)揚(yáng)聲器發(fā)送音頻消息“這是去電影院的路線”，并通過(guò)應(yīng)用程序編程接口（API，Application Programming Interface）調(diào)用或操作系統(tǒng)（OS）命令打開地圖應(yīng)用程序。

本節(jié)是對(duì)生產(chǎn)過(guò)程中ML系統(tǒng)的一種寬泛概述。然而，這假設(shè)ML算法已經(jīng)經(jīng)過(guò)了適當(dāng)訓(xùn)練和測(cè)試。相信我，那是容易的部分。在本書的最后，你將熟練地訓(xùn)練高度復(fù)雜的深度學(xué)習(xí)算法。但是，現(xiàn)在我們先學(xué)習(xí)通用的訓(xùn)練過(guò)程。

官术网_书友最值得收藏!

深度學(xué)習(xí)初學(xué)者指南

1.1 接觸ML生態(tài)系統(tǒng)

1.1　接觸ML生態(tài)系統(tǒng)