官术网_书友最值得收藏!

1.4 機器學習的研究領域

機器學習是繼專家系統之后人工智能應用的又一重要研究領域,也是人工智能和神經計算的核心研究課題之一。現有的計算機系統和人工智能系統沒有什么學習能力,至多也只有非常有限的學習能力,因而不能滿足科技和生產提出的新要求。對機器學習的討論和機器學習研究的進展,必將促使人工智能和整個科學技術的進一步發展。

其實,機器學習跟模式識別、統計學習、數據挖掘、計算機視覺、語音識別、自然語言處理等領域有著很深的聯系。從范圍上來說,機器學習跟模式識別、統計學習、數據挖掘是類似的,同時,機器學習與其他領域的處理技術結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此,一般說數據挖掘時可以等同于說機器學習。同時,我們平常所說的機器學習應用應該是通用的,不僅僅局限在結構化數據,還有圖像、音頻等應用。在本節對機器學習這些相關領域的介紹將有助于我們理清機器學習的應用場景與研究范圍,更好地理解后面的算法與應用層次。

1.模式識別

模式識別與機器學習的主要區別在于,前者是從工業界發展起來的概念,后者則主要源自計算機學科。在著名的Pattern Recognition And Machine Learning(《模式識別與機器學習》)這本書中,Christopher M. Bishop在開頭是這樣說的:“模式識別源自工業界,而機器學習來自于計算機學科”。不過,它們中的活動可以被視為同一個領域的兩個方面。

2.數據挖掘

數據挖掘=機器學習+數據庫。

數據挖掘(Data Mining又稱為資料探勘、數據采礦)是數據庫知識發現(Knowledge-Discovery in Databases,KDD)中的一個步驟。數據挖掘一般是指從大量數據中自動搜索隱藏于其中的有著特殊關系性(屬于Association Rule Learning,即關聯規則學習)的信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

3.統計學習

統計學習近似等于機器學習。統計學習是與機器學習高度重疊的一門學科。因為機器學習中的大多數方法來自統計學,甚至可以認為,統計學的發展促進機器學習的繁榮昌盛。例如,著名的支持向量機算法就源自統計學科。但是在某種程度上兩者是有區別的:統計學習者重點關注的是統計模型的發展與優化,偏數學;機器學習者更關注的是能夠解決問題,偏實踐,因此會重點研究學習算法在計算機上執行的效率與準確性的提升。

4.計算機視覺

計算機視覺=圖像處理+機器學習。

圖像處理技術用于將圖像處理為適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用非常多,比如百度識圖、手寫字符識別、車牌識別等。

5.語音識別

語音識別=語音處理+機器學習。

語音識別就是音頻處理技術與機器學習的結合。語音識別技術一般不會單獨使用,而會結合自然語言處理的相關技術。目前的相關應用有蘋果的語音助手Siri等。

6.自然語言處理

自然語言處理=文本處理+機器學習。

自然語言處理技術是讓機器理解人類語言這個領域的一項技術。在自然語言處理技術中,大量使用了編譯原理相關的技術,例如詞法分析、語法分析等。除此之外,在理解層面,使用了語義理解、機器學習等技術。

7.回歸算法

在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一是回歸算法比較簡單,介紹它可以讓人平滑地從統計學遷移到機器學習中;二是回歸算法是后面若干強大算法的基石。回歸算法有兩個重要的子類,即線性回歸和邏輯回歸。

8.神經網絡

神經網絡(也稱為人工神經網絡,ANN)算法是20世紀80年代機器學習界非常流行的算法,不過在90年代中途衰落。現在,攜著“深度學習”之勢,神經網絡重裝歸來,重新成為最強大的機器學習算法之一。

在神經網絡中,每個處理單元是一個邏輯回歸模型。邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸到下一個層次。通過這樣的過程,神經網絡可以完成非常復雜的非線性分類。

9.支持向量機(SVM)

支持向量機算法誕生于統計學習界,是在機器學習界大放光彩的經典算法。支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。

10.聚類算法

簡單來說,聚類算法就是計算種群中的距離,根據距離的遠近將數據劃分為多個族群。聚類算法中最典型的代表是K-Means算法。訓練數據都是不含分類標注的,算法的目的是通過訓練推測出這些數據的分類標注。這類算法有一個統稱,即無監督算法。

11.降維算法

降維算法也是一種無監督學習算法,其主要特征是將數據從高維降低到低維層次。在這里,維度表示的是數據的特征量大小。降維算法的主要作用是壓縮數據與提升機器學習其他算法的效率。通過降維算法,可以將具有幾千個特征的數據壓縮至若干個特征。另外,降維算法的另一個好處是數據的可視化。降維算法的主要代表是PCA算法(主成分分析算法)。

12.推薦算法

推薦算法是目前業界非常火的一種算法,在電商界,如亞馬遜、天貓、京東等得到了廣泛的運用。推薦算法的主要特征是可以自動向用戶推薦他們感興趣的東西,從而增加購買率,提升效益。

13.其他算法

除了以上算法之外,機器學習界還有其他算法,如高斯判別、樸素貝葉斯、決策樹等。機器學習界的算法眾多。

主站蜘蛛池模板: 巴彦县| 孟津县| 夏津县| 天台县| 曲沃县| 扎兰屯市| 邵阳市| 保定市| 白朗县| 乐山市| 盐城市| 延长县| 南漳县| 柳河县| 房产| 普宁市| 肥东县| 永靖县| 稷山县| 双流县| 怀来县| 慈利县| 杭州市| 白山市| 枣强县| 临城县| 莱芜市| 肇州县| 普兰店市| 兴山县| 阳谷县| 龙游县| 安远县| 防城港市| 广宁县| 汝阳县| 宜兰县| 鹤山市| 安徽省| 青川县| 望江县|