官术网_书友最值得收藏!

前言

機器學習(Machine LearningML)是人工智能的一個分支,它是一門多領域交叉學科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。機器學習方法可以根據(jù)經(jīng)驗數(shù)據(jù)自動完成模型參數(shù)學習,而不需要人為設定規(guī)則,大幅降低了人工分析的工作量和難度,已成為目前解決人工智能相關問題的主要方式。另一方面,作為目前流行的人工智能編程語言,Python具有簡單易學、免費開源、跨平臺性、高層語言、面向?qū)ο蟆⒇S富的庫、膠水語言等優(yōu)點,不僅大量計算機專業(yè)人員使用Python進行人工智能算法快速開發(fā),而且非計算機專業(yè)人員也利用Python結(jié)合封裝好的人工智能算法解決其專業(yè)問題。

本書由南開大學計算機學院的教師結(jié)合多年教學經(jīng)驗和人工智能教育的發(fā)展需要編著而成,可作為我國高校計算機專業(yè)學生和非計算機專業(yè)理工科學生機器學習入門課程的教材。本書從案例出發(fā),通過具體問題向讀者直觀展示了利用機器學習方法解決人工智能問題的詳細步驟,以及利用Python程序設計語言快速應用機器學習方法解決人工智能問題的具體過程,力爭使讀者在有限時間內(nèi)快速掌握每種機器學習方法適合解決的人工智能問題。我們也提供了一些機器學習的理論分析和推導過程,使對機器學習理論有興趣的讀者能夠?qū)ο嚓P知識有一個初步認識和掌握,為讀者學習更深層次的機器學習理論打下了一個良好的基礎。

在利用本書學習機器學習相關知識時,建議讀者一定要多思考、多分析、多動手實踐。當閱讀一個具體案例分析時,要認真思考每一個案例的具體解決步驟,從中學習利用機器學習方法解決人工智能問題的一般過程。當閱讀案例代碼時,要自己梳理程序結(jié)構(gòu),在計算機上重現(xiàn)該程序的運行結(jié)果,通過逐語句執(zhí)行,并查看變量狀態(tài)的方式分析各語句的作用。只有這樣,才能真正掌握利用機器學習解決人工智能問題的具體方法和流程,也才能真正做到熟練運用機器學習方法解決實際遇到的應用問題。

本書的特色包括:(1)以案例為主線,引入相關知識點,使讀者在具體應用中快速掌握機器學習解決人工智能問題的具體方法和流程。(2)強調(diào)應用性,同時也給出了必要的機器學習理論及推導,既適合作為計算機相關專業(yè)人員進行機器學習的入門讀物,也適合對“利用機器學習方法解決人工智能問題”有興趣的非計算機相關專業(yè)人員閱讀。

3)將簡單易懂的案例代碼分析和理論性強、較難理解的內(nèi)容分開,方便讀者根據(jù)實際需求進行相關章節(jié)的閱讀。

本書包括5章和附錄A,下面簡單介紹各部分內(nèi)容。

1章,首先給出了機器學習的基本概念及分類。其次,從Python編程環(huán)境、基本數(shù)據(jù)類型、分支語句和循環(huán)語句、函數(shù)、類和對象、文件讀寫、異常處理等方面使讀者快速掌握Python程序設計語言的入門知識。再次,介紹了應用機器學習解決人工智能問題時常用的Python第三方庫,包括NumPySciPyPandasMatplotlibScikit-learn。最后,給出了網(wǎng)絡爬蟲及信息提取、股票數(shù)據(jù)圖表繪制兩個案例分析,使讀者快速掌握使用Python解決實際問題的方法。

2章給出了4個分類案例。首先是員工離職預測案例,分別使用基本線性分類器、最小二乘分類器、感知器和邏輯回歸分類器,根據(jù)員工對公司滿意度、最新考核評估等特征對員工是否離職進行了預測。其次是Iris(鳶尾花)數(shù)據(jù)分類案例,分別使用k近鄰分類器和決策樹分類器,根據(jù)花萼長度、花萼寬度等特征對鳶尾花的種類進行了預測。再次是新聞文本數(shù)據(jù)分類案例,介紹了文本分詞、去停用詞、文本表示與特征選擇等,介紹了文本數(shù)據(jù)預處理的方法和具體實現(xiàn),并分別使用樸素貝葉斯分類器、支持向量機分類器和Adaboost分類器,對搜狐新聞數(shù)據(jù)(SogouCS)完成了國內(nèi)、國際、體育、社會、娛樂等12個頻道的分類預測。最后是手寫數(shù)字圖像識別案例,使用BP神經(jīng)網(wǎng)絡,基于MNIST數(shù)據(jù)集完成了對神經(jīng)網(wǎng)絡模型的訓練和測試。

3章給出了2個聚類案例。首先是人臉圖像聚類案例,結(jié)合k均值聚類和PCA降維,對ORL人臉數(shù)據(jù)集的部分類別數(shù)據(jù)進行了聚類分析。然后是文本聚類案例,介紹了極大似然估計、隱變量和高斯混合模型(GMM)的基礎知識,并實現(xiàn)GMM算法完成兩類搜狐新聞的聚類分析。

4章給出了2個回歸預測案例。首先是房價預測案例,分別使用線性回歸和嶺回歸模型,對Kaggle上的housing數(shù)據(jù)集完成了房價預測分析,同時也通過比較展示了不同數(shù)據(jù)預處理方法和特征選取方法對模型性能的影響。然后是股票走勢預測案例,介紹了長短周期記憶網(wǎng)絡(LSTM)的基本原理,并利用TensorFlow搭建LSTM網(wǎng)絡,完成了股票開盤價、收盤價、最高價、最低價和成交量的預測。

5章給出了2個綜合案例。首先是場景文本檢測案例,使用傳統(tǒng)文本檢測的方法和適當?shù)奈谋咀R別庫,實現(xiàn)一個能在較復雜的街景中提取文字信息的簡易Demo程序。作為一個場景文本檢測的入門級案例,本案例各處理步驟所使用的方法都比較簡單。對場景文本檢測問題感興趣的讀者,可閱讀近幾年CVPRICCV等頂級會議上關于場景文本檢測的論文,以獲取相關問題的最新方法。然后是面部認證案例,介紹了Siamese(孿生)網(wǎng)絡的基本原理,基于TensorFlow實現(xiàn)了該網(wǎng)絡,基于LFW人臉數(shù)據(jù)庫完成了模型訓練和測試,并搭建面部認證Demo程序進行了模型的具體應用方法。通過本章內(nèi)容,讀者應對基于機器學習的人工智能軟件系統(tǒng)的構(gòu)建過程有一個基本的認識。

附錄A給出了理論性強、較難理解的內(nèi)容。具體包括邏輯回歸分類器原理介紹、自己編程實現(xiàn)決策樹分類器、支持向量機的數(shù)學推導、Adaboost的數(shù)學推導和代碼實現(xiàn)、神經(jīng)網(wǎng)絡的數(shù)學推導和代碼實現(xiàn)、期望最大化算法和高斯混合模型,以及基于波士頓房價數(shù)據(jù)集的房價預測代碼實現(xiàn)。讀者可根據(jù)自己的實際需求選擇部分內(nèi)容進行學習。

本書的編寫分工如下:王愷負責1.1節(jié)、第5章及附錄A的編寫,并完成全書統(tǒng)稿和定稿工作;閆曉玉負責1.21.6節(jié)及第2章的編寫;李濤負責第34章的編寫。

在本書的編寫過程中,南開大學計算機學院2019級研究生馬志、卜旺、周可可幫助收集整理了第24章的案例,南開大學計算機學院2015級本科生周睿、龔航提供了場景文本檢測和面部認證兩個綜合案例,電子工業(yè)出版社有限公司的劉志紅編輯給予了大力支持,在此表示真誠的感謝!

本書還參考了國內(nèi)外的一些機器學習方面的書籍及大量的網(wǎng)上資料,力求有所突破和創(chuàng)新。由于能力和水平所限,書中出現(xiàn)的不妥甚至錯誤之處,懇請讀者指正。

作者

2019年12月于南開園

主站蜘蛛池模板: 卢龙县| 宁阳县| 鱼台县| 连南| 衡山县| 佛冈县| 墨玉县| 禹州市| 仪陇县| 正定县| 丰县| 驻马店市| 邵东县| 宁都县| 天门市| 泸溪县| 海南省| 盐源县| 井研县| 舒城县| 华池县| 石阡县| 潢川县| 稷山县| 峨山| 留坝县| 长葛市| 阿鲁科尔沁旗| 将乐县| 晋城| 玉山县| 石阡县| 伊金霍洛旗| 沙河市| 厦门市| 商都县| 和平县| 黑河市| 东兰县| 抚顺县| 于都县|