官术网_书友最值得收藏!

1.2 機器學習分類

機器學習可以分為以下四種類型:

·監督學習;

·無監督學習;

·半監督學習;

·強化學習。

監督學習(supervised learning)常常運用于預測分析。在本章下一個小節中,我們將舉例展示如何運用回歸模型來預測工資水平。在第3章中,我們將運用一個類似但更復雜的模型來展示監督學習在預測房價中的作用。我們通過這兩個例子來區分監督學習在連續變量(比如個人工資水平或房價)預測和分類預測中的運用。分類模型在機器學習中也很常見,比如我們后面將看到一個實際的機器學習運用場景,即運用機器學習將潛在借貸者進行信用分級以便做出借貸決策。

無監督學習(unsupervised learning)常常用于描述數據的變化規律,主要目的不是用來預測某個特殊的變量,而是理解數據的發展和變化規律。假設一家公司準備向消費者推廣一系列的產品,無監督學習可以通過研究消費者的歷史消費數據,總結消費者的特征與規律,這反過來又會影響產品廣告方式的選擇。我們將在第2章中介紹無監督學習的常用模型——聚類模型。

在監督學習中,數據可以分為兩大類——標簽和特征。所謂標簽是指預測的目標值,而特征則是用于預測的特征數據。例如,如果我們需要預測房價,特征可以包含房屋面積、臥室個數、衛生間個數、車庫大小、地下室是否完工等,而房價則是我們最終預測的目標值,這里的房價就是標簽。在無監督學習中,我們同樣需要用到特征,但不需要標簽,因為無監督學習用于描述數據的規律,而不是進行預測。對于上述舉例,我們可以用無監督學習來總結某些區域中房子的特征,而不是預測價格。依靠無監督學習,可以在同一個社區歸納出兩種不同類型住房的特征,第一種類型的特征包含1 500~2 000英尺[1]的居住面積、3個房間以及1個車庫;第二種類型則是5 000~6 000英尺的居住面積、6個房間以及2個車庫。

接下來我們討論半監督學習。顧名思義,半監督學習(semisupervised learning)是介于監督和無監督之間的一種機器學習方法。當我們在做預測分析時,我們常常既有標簽數據,同時又有非標簽數據,有時非標簽數據往往被認為沒有意義而被忽略,但事實可能不然。通過將非標簽數據與標簽數據混合在一起,我們可以進行聚類分析,從而更精確地實現我們的預測目的。例如,假設我們想通過諸如年齡、收入水平等特征,來預測客戶是否會購買某種產品。進一步假設,我們有少量標簽數據(如表示客戶特征以及是否購買產品的數據)和更大數量的未標簽數據(表示潛在客戶特征,但不表示他們是否購買產品)。我們可以利用這些特征應用無監督學習對潛在客戶進行聚類分析。想象下面這種簡單的情形:

·在完整的數據集中有A和B兩個聚類;

·標簽數據中的購買者都對應于聚類A中的點,而標簽數據中的非購買者都對應于聚類B中的點。

我們可以合理地將A類的所有個人歸類為買家,B類的所有個人歸類為非買家。

人類使用半監督學習來認識世界。想象一下,假如你不知道“貓”和“狗”的名字,但你很有觀察力。你會注意到社區里有兩組截然不同的家養寵物,最后有人指著這兩種動物,告訴你一種是貓,另一種是狗。你不難使用半監督學習中的標簽應用到你見過的所有其他動物身上。如果人類可以這種方式使用半監督學習,機器這樣做也就不足為奇了。

我們要討論的最后一類機器學習方法是強化學習(reinforcement learning),它涉及機器學習算法與環境交互,并做出一系列決策的情況,環境一般隨著決策以不確定的方式進行變化。無人駕駛汽車使用的就是強化學習算法。強化學習算法也是前面提到的,用于圍棋和國際象棋的程序的基礎,它們也被金融領域的一些算法交易策略所使用。我們將在第7章中討論強化學習。

[1] 1 英尺=0.304 8 米。——譯者注

主站蜘蛛池模板: 长白| 内江市| 剑阁县| 南充市| 富源县| 郯城县| 呼和浩特市| 建昌县| 通道| 横峰县| 洮南市| 册亨县| 长宁区| 武威市| 汕尾市| 泰顺县| 金川县| 漳浦县| 洪雅县| 孝义市| 交口县| 班戈县| 辽源市| 绥滨县| 溆浦县| 石渠县| 新龙县| 全州县| 柳江县| 博白县| 长汀县| 安达市| 奉贤区| 东乌珠穆沁旗| 陆川县| 大悟县| 依安县| 玉溪市| 英山县| 和顺县| 北川|