舉報

會員
深入淺出Python機器學習
最新章節:
參考文獻
機器學習正在迅速改變我們的世界。我們幾乎每天都會讀到機器學習如何改變日常的生活。如果你在淘寶或者京東這樣的電子商務網站購買商品,或者在愛奇藝或是騰訊視頻這樣的視頻網站觀看節目,甚至只是進行一次百度搜索,就已經觸碰到了機器學習的應用。使用這些服務的用戶會產生數據,這些數據會被收集,在進行預處理之后用來訓練模型,而模型會通過這些數據來提供更好的用戶體驗。此外,目前還有很多使用機器學習技術的產品或服務即將在我們的生活當中普及,如能夠解放雙手的無人駕駛汽車、聰明伶俐的智能家居產品、善解人意的導購機器人等。可以說要想深入機器學習的應用開發當中,現在就是一個很好理想的時機。本書內容涵蓋了有監督學習、無監督學習、模型優化、自然語言處理等機器學習領域所必須掌握的知識,從內容結構上很好注重知識的實用性和可操作性。全書采用由淺入深、循序漸進的講授方式,接近遵循和尊重初學者對機器學習知識的認知規律。本書適合有程序設計語言和算法基礎的讀者學習使用。
- 參考文獻 更新時間:2022-07-29 15:24:14
- 15.4 小結
- 15.3.3 對算法模型進行A/B測試
- 15.3.2 在工業級場景中的應用
- 15.3.1 Kaggle算法大賽平臺和OpenML平臺
- 15.3 技能磨煉與實際應用
- 15.2.3 使用概率模型進行推理
- 15.2.2 深度學習開源框架
- 15.2.1 用于大數據分析的計算引擎
- 15.2 未來學習方向
- 15.1.3 人才困境仍難緩解,政策支援亟不可待
- 15.1.2 AI人才需求集中于一線城市,七成從業者月薪過萬
- 15.1.1 全球AI從業者達190萬,人才需求3年翻8倍
- 15.1 人才需求現狀
- 第15章 人才需求現狀與未來學習方向——你是不是下一個“大牛”
- 14.4 小結
- 14.3.3 使用潛在狄利克雷分布進行話題提取
- 14.3.2 編寫爬蟲進行內容爬取
- 14.3.1 尋找目標網站并分析結構
- 14.3 對文本數據進行話題提取
- 14.2.4 對目標頁面進行爬取并保存到本地
- 14.2.3 使用BeautifulSoup進行HTML解析
- 14.2.2 Python中的正則表達式
- 14.2.1 確定目標頁面并進行分析
- 14.2 稍微復雜一點的爬取
- 14.1.3 進行爬取并保存為本地文件
- 14.1.2 確定一個目標網站并分析其結構
- 14.1.1 準備Requests庫和User Agent
- 14.1 簡單頁面的爬取
- 第14章 從數據獲取到話題提取——從“研究員”到“段子手”
- 13.3 小結
- 13.2.3 刪除文本中的停用詞
- 13.2.2 使用tf-idf模型對文本數據進行處理
- 13.2.1 使用n-Gram改善詞袋模型
- 13.2 對文本數據進一步進行優化處理
- 13.1.3 使用詞袋模型將文本數據轉為數組
- 13.1.2 使用分詞工具對中文文本進行分詞
- 13.1.1 使用CountVectorizer對文本進行特征提取
- 13.1 文本數據的特征提取、中文分詞及詞袋模型
- 第13章 文本數據處理——親,見字如“數”
- 12.4 小結
- 12.3.2 使用管道模型尋找更優參數
- 12.3.1 使用管道模型進行模型選擇
- 12.3 使用管道模型進行模型選擇和參數調優
- 12.2.3 向管道模型添加特征選擇步驟
- 12.2.2 建立包含預處理和MLP模型的管道模型
- 12.2.1 數據集準備
- 12.2 使用管道模型對股票漲幅進行回歸分析
- 12.1.2 使用管道模型進行網格搜索
- 12.1.1 管道模型的基本概念
- 12.1 管道模型的概念及用法
- 第12章 建立算法的管道模型——團結就是力量
- 11.4 小結
- 11.3.2 分類模型中的決定系數
- 11.3.1 分類模型中的預測準確率
- 11.3 分類模型的可信度評估
- 11.2.2 與交叉驗證結合的網格搜索
- 11.2.1 簡單網格搜索
- 11.2 使用網格搜索優化模型參數
- 11.1.3 為什么要使用交叉驗證法
- 11.1.2 隨機拆分和“挨個兒試試”
- 11.1.1 scikit-learn中的交叉驗證法
- 11.1 使用交叉驗證進行模型評估
- 第11章 模型評估與優化——只有更好,沒有最好
- 10.4 小結
- 10.3.3 迭代式特征選擇
- 10.3.2 基于模型的特征選擇
- 10.3.1 使用單一變量法進行特征選擇
- 10.3 自動特征選擇
- 10.2.2 向數據集添加多項式特征
- 10.2.1 向數據集添加交互式特征
- 10.2 數據“升維”
- 10.1.2 對數據進行裝箱處理
- 10.1.1 使用啞變量轉化類型特征
- 10.1 數據表達
- 第10章 數據表達與特征工程——錦上再添花
- 9.5 小結
- 9.4.3 DBSCAN算法
- 9.4.2 凝聚聚類算法
- 9.4.1 K均值聚類算法
- 9.4 聚類算法
- 9.3.2 非負矩陣分解用于特征提取
- 9.3.1 PCA主成分分析法用于特征提取
- 9.3 特征提取
- 9.2.3 原始特征與PCA主成分之間的關系
- 9.2.2 對數據降維以便于進行可視化
- 9.2.1 PCA主成分分析原理
- 9.2 數據降維
- 9.1.5 通過數據預處理提高模型準確率
- 9.1.4 使用Normalizer進行數據預處理
- 9.1.3 使用RobustScaler進行數據預處理
- 9.1.2 使用MinMaxScaler進行數據預處理
- 9.1.1 使用StandardScaler進行數據預處理
- 9.1 數據預處理
- 第9章 數據預處理、降維、特征提取及聚類——快刀斬亂麻
- 8.4 小結
- 8.3.3 使用模型進行數字識別
- 8.3.2 訓練MLP神經網絡
- 8.3.1 使用MNIST數據集
- 8.3 神經網絡實例——手寫識別
- 8.2.3 神經網絡的參數設置
- 8.2.2 神經網絡中的非線性矯正
- 8.2.1 神經網絡的原理
- 8.2 神經網絡的原理及使用
- 8.1.3 神經網絡之父——杰弗瑞·欣頓
- 8.1.2 第一個感知器學習法則
- 8.1.1 神經網絡的起源
- 8.1 神經網絡的前世今生
- 第8章 神經網絡——曾入“冷宮”,如今得寵
- 7.4 小結
- 7.3.2 使用SVR進行建模
- 7.3.1 初步了解數據集
- 7.3 SVM實例——波士頓房價回歸分析
- 7.2.3 SVM算法的優勢與不足
- 7.2.2 支持向量機的gamma參數調節
- 7.2.1 不同核函數的SVM對比
- 7.2 SVM的核函數與參數選擇
- 7.1.2 支持向量機SVM的核函數
- 7.1.1 支持向量機SVM的原理
- 7.1 支持向量機SVM基本概念
- 第7章 支持向量機SVM——專治線性不可分
- 6.4 小結
- 6.3.3 用決策樹建模并做出預測
- 6.3.2 用get_dummies處理數據
- 6.3.1 數據集的準備
- 6.3 隨機森林實例——要不要和相親對象進一步發展
- 6.2.3 隨機森林的優勢和不足
- 6.2.2 隨機森林的構建
- 6.2.1 隨機森林的基本概念
- 6.2 隨機森林
- 6.1.3 決策樹的優勢和不足
- 6.1.2 決策樹的構建
- 6.1.1 決策樹基本原理
- 6.1 決策樹
- 第6章 決策樹與隨機森林——會玩讀心術的算法
- 5.4 小結
- 5.3.3 高斯樸素貝葉斯的學習曲線
- 5.3.2 使用高斯樸素貝葉斯進行建模
- 5.3.1 對數據集進行分析
- 5.3 樸素貝葉斯實戰——判斷腫瘤是良性還是惡性
- 5.2.3 多項式樸素貝葉斯
- 5.2.2 高斯樸素貝葉斯
- 5.2.1 貝努利樸素貝葉斯
- 5.2 樸素貝葉斯算法的不同方法
- 5.1.2 樸素貝葉斯的簡單應用
- 5.1.1 貝葉斯定理
- 5.1 樸素貝葉斯基本概念
- 第5章 樸素貝葉斯——打雷啦,收衣服啊
- 4.5 小結
- 4.4.3 套索回歸與嶺回歸的對比
- 4.4.2 套索回歸的參數調節
- 4.4.1 套索回歸的原理
- 4.4 使用L1正則化的線性模型——套索回歸
- 4.3.2 嶺回歸的參數調節
- 4.3.1 嶺回歸的原理
- 4.3 使用L2正則化的線性模型——嶺回歸
- 4.2.2 線性回歸的性能表現
- 4.2.1 線性回歸的基本原理
- 4.2 最基本的線性模型——線性回歸
- 4.1.3 線性模型的特點
- 4.1.2 線性模型的圖形表示
- 4.1.1 線性模型的一般公式
- 4.1 線性模型的基本概念
- 第4章 廣義線性模型——“耿直”的算法模型
- 3.4 小結
- 3.3.4 使用模型對新樣本的分類進行預測
- 3.3.3 使用K最近鄰算法進行建模
- 3.3.2 生成訓練數據集和測試數據集
- 3.3.1 對數據集進行分析
- 3.3 K最近鄰算法項目實戰——酒的分類
- 3.2.3 K最近鄰算法用于回歸分析
- 3.2.2 K最近鄰算法處理多元分類任務
- 3.2.1 K最近鄰算法在分類任務中的應用
- 3.2 K最近鄰算法的用法
- 3.1 K最近鄰算法的原理
- 第3章 K最近鄰算法——近朱者赤,近墨者黑
- 2.5 小結
- 2.4 scikit-learn——非常流行的Python機器學習庫
- 2.3.4 matplotlib——畫出優美的圖形
- 2.3.3 pandas——數據分析的利器
- 2.3.2 Scipy——強大的科學計算工具集
- 2.3.1 Numpy——基礎科學計算庫
- 2.3 一些必需庫的安裝及功能簡介
- 2.2.3 Jupyter Notebook的使用方法
- 2.2.2 運行Jupyter Notebook
- 2.2.1 使用pip進行Jupyter Notebook的下載和安裝
- 2.2 Jupyter Notebook的安裝與使用方法
- 2.1 Python的下載和安裝
- 第2章 基于Python語言的環境配置
- 1.7 小結
- 1.6 模型的泛化、過擬合與欠擬合
- 1.5 機器學習中的分類與回歸
- 1.4 有監督學習與無監督學習
- 1.3 機器學習應該如何入門——世上無難事
- 1.2 機器學習的一些應用場景——蝙蝠公司的業務單元
- 1.1 什么是機器學習——從一個小故事開始
- 第1章 概述
- 本書讀者對象
- 本書特色
- 本書內容及體系結構
- 前途光明,馬上開始
- 置身事外,還是投身其中
- 人工智能,火了
- 前言
- 作者簡介
- 內容簡介
- 版權信息
- 封面
- 封面
- 版權信息
- 內容簡介
- 作者簡介
- 前言
- 人工智能,火了
- 置身事外,還是投身其中
- 前途光明,馬上開始
- 本書內容及體系結構
- 本書特色
- 本書讀者對象
- 第1章 概述
- 1.1 什么是機器學習——從一個小故事開始
- 1.2 機器學習的一些應用場景——蝙蝠公司的業務單元
- 1.3 機器學習應該如何入門——世上無難事
- 1.4 有監督學習與無監督學習
- 1.5 機器學習中的分類與回歸
- 1.6 模型的泛化、過擬合與欠擬合
- 1.7 小結
- 第2章 基于Python語言的環境配置
- 2.1 Python的下載和安裝
- 2.2 Jupyter Notebook的安裝與使用方法
- 2.2.1 使用pip進行Jupyter Notebook的下載和安裝
- 2.2.2 運行Jupyter Notebook
- 2.2.3 Jupyter Notebook的使用方法
- 2.3 一些必需庫的安裝及功能簡介
- 2.3.1 Numpy——基礎科學計算庫
- 2.3.2 Scipy——強大的科學計算工具集
- 2.3.3 pandas——數據分析的利器
- 2.3.4 matplotlib——畫出優美的圖形
- 2.4 scikit-learn——非常流行的Python機器學習庫
- 2.5 小結
- 第3章 K最近鄰算法——近朱者赤,近墨者黑
- 3.1 K最近鄰算法的原理
- 3.2 K最近鄰算法的用法
- 3.2.1 K最近鄰算法在分類任務中的應用
- 3.2.2 K最近鄰算法處理多元分類任務
- 3.2.3 K最近鄰算法用于回歸分析
- 3.3 K最近鄰算法項目實戰——酒的分類
- 3.3.1 對數據集進行分析
- 3.3.2 生成訓練數據集和測試數據集
- 3.3.3 使用K最近鄰算法進行建模
- 3.3.4 使用模型對新樣本的分類進行預測
- 3.4 小結
- 第4章 廣義線性模型——“耿直”的算法模型
- 4.1 線性模型的基本概念
- 4.1.1 線性模型的一般公式
- 4.1.2 線性模型的圖形表示
- 4.1.3 線性模型的特點
- 4.2 最基本的線性模型——線性回歸
- 4.2.1 線性回歸的基本原理
- 4.2.2 線性回歸的性能表現
- 4.3 使用L2正則化的線性模型——嶺回歸
- 4.3.1 嶺回歸的原理
- 4.3.2 嶺回歸的參數調節
- 4.4 使用L1正則化的線性模型——套索回歸
- 4.4.1 套索回歸的原理
- 4.4.2 套索回歸的參數調節
- 4.4.3 套索回歸與嶺回歸的對比
- 4.5 小結
- 第5章 樸素貝葉斯——打雷啦,收衣服啊
- 5.1 樸素貝葉斯基本概念
- 5.1.1 貝葉斯定理
- 5.1.2 樸素貝葉斯的簡單應用
- 5.2 樸素貝葉斯算法的不同方法
- 5.2.1 貝努利樸素貝葉斯
- 5.2.2 高斯樸素貝葉斯
- 5.2.3 多項式樸素貝葉斯
- 5.3 樸素貝葉斯實戰——判斷腫瘤是良性還是惡性
- 5.3.1 對數據集進行分析
- 5.3.2 使用高斯樸素貝葉斯進行建模
- 5.3.3 高斯樸素貝葉斯的學習曲線
- 5.4 小結
- 第6章 決策樹與隨機森林——會玩讀心術的算法
- 6.1 決策樹
- 6.1.1 決策樹基本原理
- 6.1.2 決策樹的構建
- 6.1.3 決策樹的優勢和不足
- 6.2 隨機森林
- 6.2.1 隨機森林的基本概念
- 6.2.2 隨機森林的構建
- 6.2.3 隨機森林的優勢和不足
- 6.3 隨機森林實例——要不要和相親對象進一步發展
- 6.3.1 數據集的準備
- 6.3.2 用get_dummies處理數據
- 6.3.3 用決策樹建模并做出預測
- 6.4 小結
- 第7章 支持向量機SVM——專治線性不可分
- 7.1 支持向量機SVM基本概念
- 7.1.1 支持向量機SVM的原理
- 7.1.2 支持向量機SVM的核函數
- 7.2 SVM的核函數與參數選擇
- 7.2.1 不同核函數的SVM對比
- 7.2.2 支持向量機的gamma參數調節
- 7.2.3 SVM算法的優勢與不足
- 7.3 SVM實例——波士頓房價回歸分析
- 7.3.1 初步了解數據集
- 7.3.2 使用SVR進行建模
- 7.4 小結
- 第8章 神經網絡——曾入“冷宮”,如今得寵
- 8.1 神經網絡的前世今生
- 8.1.1 神經網絡的起源
- 8.1.2 第一個感知器學習法則
- 8.1.3 神經網絡之父——杰弗瑞·欣頓
- 8.2 神經網絡的原理及使用
- 8.2.1 神經網絡的原理
- 8.2.2 神經網絡中的非線性矯正
- 8.2.3 神經網絡的參數設置
- 8.3 神經網絡實例——手寫識別
- 8.3.1 使用MNIST數據集
- 8.3.2 訓練MLP神經網絡
- 8.3.3 使用模型進行數字識別
- 8.4 小結
- 第9章 數據預處理、降維、特征提取及聚類——快刀斬亂麻
- 9.1 數據預處理
- 9.1.1 使用StandardScaler進行數據預處理
- 9.1.2 使用MinMaxScaler進行數據預處理
- 9.1.3 使用RobustScaler進行數據預處理
- 9.1.4 使用Normalizer進行數據預處理
- 9.1.5 通過數據預處理提高模型準確率
- 9.2 數據降維
- 9.2.1 PCA主成分分析原理
- 9.2.2 對數據降維以便于進行可視化
- 9.2.3 原始特征與PCA主成分之間的關系
- 9.3 特征提取
- 9.3.1 PCA主成分分析法用于特征提取
- 9.3.2 非負矩陣分解用于特征提取
- 9.4 聚類算法
- 9.4.1 K均值聚類算法
- 9.4.2 凝聚聚類算法
- 9.4.3 DBSCAN算法
- 9.5 小結
- 第10章 數據表達與特征工程——錦上再添花
- 10.1 數據表達
- 10.1.1 使用啞變量轉化類型特征
- 10.1.2 對數據進行裝箱處理
- 10.2 數據“升維”
- 10.2.1 向數據集添加交互式特征
- 10.2.2 向數據集添加多項式特征
- 10.3 自動特征選擇
- 10.3.1 使用單一變量法進行特征選擇
- 10.3.2 基于模型的特征選擇
- 10.3.3 迭代式特征選擇
- 10.4 小結
- 第11章 模型評估與優化——只有更好,沒有最好
- 11.1 使用交叉驗證進行模型評估
- 11.1.1 scikit-learn中的交叉驗證法
- 11.1.2 隨機拆分和“挨個兒試試”
- 11.1.3 為什么要使用交叉驗證法
- 11.2 使用網格搜索優化模型參數
- 11.2.1 簡單網格搜索
- 11.2.2 與交叉驗證結合的網格搜索
- 11.3 分類模型的可信度評估
- 11.3.1 分類模型中的預測準確率
- 11.3.2 分類模型中的決定系數
- 11.4 小結
- 第12章 建立算法的管道模型——團結就是力量
- 12.1 管道模型的概念及用法
- 12.1.1 管道模型的基本概念
- 12.1.2 使用管道模型進行網格搜索
- 12.2 使用管道模型對股票漲幅進行回歸分析
- 12.2.1 數據集準備
- 12.2.2 建立包含預處理和MLP模型的管道模型
- 12.2.3 向管道模型添加特征選擇步驟
- 12.3 使用管道模型進行模型選擇和參數調優
- 12.3.1 使用管道模型進行模型選擇
- 12.3.2 使用管道模型尋找更優參數
- 12.4 小結
- 第13章 文本數據處理——親,見字如“數”
- 13.1 文本數據的特征提取、中文分詞及詞袋模型
- 13.1.1 使用CountVectorizer對文本進行特征提取
- 13.1.2 使用分詞工具對中文文本進行分詞
- 13.1.3 使用詞袋模型將文本數據轉為數組
- 13.2 對文本數據進一步進行優化處理
- 13.2.1 使用n-Gram改善詞袋模型
- 13.2.2 使用tf-idf模型對文本數據進行處理
- 13.2.3 刪除文本中的停用詞
- 13.3 小結
- 第14章 從數據獲取到話題提取——從“研究員”到“段子手”
- 14.1 簡單頁面的爬取
- 14.1.1 準備Requests庫和User Agent
- 14.1.2 確定一個目標網站并分析其結構
- 14.1.3 進行爬取并保存為本地文件
- 14.2 稍微復雜一點的爬取
- 14.2.1 確定目標頁面并進行分析
- 14.2.2 Python中的正則表達式
- 14.2.3 使用BeautifulSoup進行HTML解析
- 14.2.4 對目標頁面進行爬取并保存到本地
- 14.3 對文本數據進行話題提取
- 14.3.1 尋找目標網站并分析結構
- 14.3.2 編寫爬蟲進行內容爬取
- 14.3.3 使用潛在狄利克雷分布進行話題提取
- 14.4 小結
- 第15章 人才需求現狀與未來學習方向——你是不是下一個“大牛”
- 15.1 人才需求現狀
- 15.1.1 全球AI從業者達190萬,人才需求3年翻8倍
- 15.1.2 AI人才需求集中于一線城市,七成從業者月薪過萬
- 15.1.3 人才困境仍難緩解,政策支援亟不可待
- 15.2 未來學習方向
- 15.2.1 用于大數據分析的計算引擎
- 15.2.2 深度學習開源框架
- 15.2.3 使用概率模型進行推理
- 15.3 技能磨煉與實際應用
- 15.3.1 Kaggle算法大賽平臺和OpenML平臺
- 15.3.2 在工業級場景中的應用
- 15.3.3 對算法模型進行A/B測試
- 15.4 小結
- 參考文獻 更新時間:2022-07-29 15:24:14