官术网_书友最值得收藏!

1.2 開始機器學習

機器學習已經存在至少60年了。早期機器學習系統源于對人工智能的探索,推導出if…else語句的手工編碼規則來處理數據并做出決策。考慮一個垃圾郵件過濾器,其工作是解析收到的電子郵件,并將無用的郵件移入垃圾郵件文件夾,如圖1-1所示。

圖1-1 垃圾郵件過濾器處理過程

我們可以列出一個單詞黑名單,只要在一封郵件中出現這些黑名單中的單詞,就將該郵件標記為垃圾郵件。這是手工編碼專家系統的一個簡單示例。(我們將在第7章中構建一個更加智能的垃圾郵件過濾器。)

如果允許我們將這些專家決策規則組合并嵌套到一棵決策樹中,那么這些專家決策規則可能會變得更加復雜(第5章)。接下來,通過一系列決策步驟,我們就可以做出更明智的決策。你應該注意到,盡管決策樹看起來像是一組if…else條件,但是它遠不止于此,實際上這是一種機器學習算法,我們將在第5章中進行探討。

手工編碼這些決策規則有時是可行的,但有兩個主要的缺點:

  • 做出一個決策所需的邏輯僅適用于單個域中的一個特定任務。例如,我們無法使用這個垃圾郵件過濾器在一張圖片中標記我們的朋友。即使我們想要改變垃圾郵件過濾器來做一些稍微不同的事情,例如:過濾釣魚郵件(目的是盜取你的個人數據),我們也必須重新設計所有的決策規則。
  • 手動設計規則需要對問題有一個深刻的理解。我們必須確切地知道什么類型的電子郵件構成了垃圾郵件,包括所有可能的例外。這并不像看上去那么容易,否則,我們就不會經常反復查看我們的垃圾郵件文件夾,尋找意外過濾掉的重要郵件了。對于其他領域的問題,手工設計規則簡直是不可能的。

這就是機器學習的用武之地。有時,我們不能很好地定義任務——除非通過例子——我們希望機器能夠自己理解并解決這些任務。在其他時候,重要的關系和相關性可能隱藏在我們人類會忽略的大數據中(見第8章)。在處理大數據時,機器學習通常可以用來找出這些隱藏關系(也稱為數據挖掘)。

人工專家系統失敗的一個很好的例子是檢測圖像中的臉。這么愚蠢,真的嗎?如今,每一部智能手機都能夠檢測圖像中的臉。可是,在20年前,這個問題基本上還沒有解決。原因是,人們對臉部構成要素的認識對機器沒有太大的幫助。我們并不用像素來思考問題。如果要我們來檢測一張臉,那么我們可能只會尋找一張臉的決定性特征,例如:眼睛、鼻子、嘴巴等。可是,當所有的機器只知道圖像有像素,像素有一定的灰度時,我們如何告訴一臺機器去尋找什么呢?在很長的一段時間里,這種圖像表征上的差異基本上使人們無法提出一套好的決策規則,讓一臺機器檢測出圖像中的一張臉。我們將在第4章中討論解決這個問題的各種方法。

然而,隨著卷積神經網絡和深度學習的出現(第9章),在識別臉部方面,機器已經和我們人類一樣成功了。我們所要做的僅僅是向機器呈現大量臉部圖像集。大多數方法還需要對訓練數據中臉部的位置進行某種形式的標注。從這時起,機器就能夠發現可以識別一張臉的特征集,而不必像人類一樣來處理這個問題了。這就是機器學習的真正強大之處。

主站蜘蛛池模板: 和政县| 法库县| 云梦县| 四川省| 神木县| 和静县| 西乌| 色达县| 惠州市| 南川市| 讷河市| 郸城县| 衢州市| 通道| 尼玛县| 凤台县| 屯留县| 阳山县| 平阴县| 利辛县| 阳信县| 盐亭县| 雷州市| 鄂温| 卓资县| 武平县| 溧水县| 修水县| 平远县| 井冈山市| 连平县| 武冈市| 绥棱县| 辽宁省| 神木县| 鹤峰县| 齐齐哈尔市| 永靖县| 镇沅| 南召县| 和林格尔县|