- 看完了 更新時間:2021-10-26 11:06:38
- 封面介紹
- 作者介紹
- 擴展閱讀
- 7.6 小結
- 7.5.4 混合數據聚類中的問題
- 7.5.3 分類數據和Gower距離
- 7.5.2 主導變量
- 7.5.1 縮放變量
- 7.5 數據縮放與分類變量
- 7.4.4 擴展閱讀
- 7.4.3 選擇簇的數量
- 7.4.2 混合正態分布
- 7.4.1 多元正態分布
- 7.4 基于模型的聚類
- 7.3.4 測量相異度
- 7.3.3 凝聚算法
- 7.3.2 樹狀圖
- 7.3.1 一個簡單的例子
- 7.3 層次聚類
- 7.2.4 選擇簇的數量
- 7.2.3 簇的解釋
- 7.2.2 K-均值算法
- 7.2.1 一個簡單的例子
- 7.2 K-均值聚類
- 7.1.5 擴展閱讀
- 7.1.4 對應分析
- 7.1.3 解釋主成分
- 7.1.2 計算主成分
- 7.1.1 一個簡單的例子
- 7.1 主成分分析
- 第 7 章 無監督學習
- 6.5 小結
- 6.4.4 超參數與交叉驗證
- 6.4.3 正則化:避免過擬合
- 6.4.2 XGBoost
- 6.4.1 提升算法
- 6.4 提升方法
- 6.3.4 超參數
- 6.3.3 變量的重要性
- 6.3.2 隨機森林
- 6.3.1 裝袋法
- 6.3 裝袋法與隨機森林
- 6.2.7 擴展閱讀
- 6.2.6 如何使用樹
- 6.2.5 預測連續的值
- 6.2.4 讓樹停止生長
- 6.2.3 測量同質性或不純度
- 6.2.2 遞歸分割算法
- 6.2.1 一個簡單的例子
- 6.2 樹模型
- 6.1.6 KNN作為特征引擎
- 6.1.5 K 的選擇
- 6.1.4 標準化(歸一化,z分數)
- 6.1.3 獨熱編碼
- 6.1.2 距離的度量
- 6.1.1 一個小例子:預測貸款違約
- 6.1 KNN
- 第 6 章 統計機器學習
- 5.6 小結
- 5.5.6 擴展閱讀
- 5.5.5 探索預測結果
- 5.5.4 基于成本的分類
- 5.5.3 數據生成
- 5.5.2 過采樣與上(下)加權
- 5.5.1 欠采樣
- 5.5 非平衡數據的處理策略
- 5.4.7 擴展閱讀
- 5.4.6 提升度
- 5.4.5 AUC
- 5.4.4 ROC曲線
- 5.4.3 精確度、召回率和特異度
- 5.4.2 稀有類問題
- 5.4.1 混淆矩陣
- 5.4 分類模型評估
- 5.3.8 擴展閱讀
- 5.3.7 評估模型
- 5.3.6 線性回歸與邏輯回歸:共性與差異
- 5.3.5 系數和優勢比的解釋
- 5.3.4 邏輯回歸的預測值
- 5.3.3 廣義線性模型
- 5.3.2 邏輯回歸和廣義線性模型
- 5.3.1 邏輯響應函數和logit函數
- 5.3 邏輯回歸
- 5.2.4 擴展閱讀
- 5.2.3 一個簡單的例子
- 5.2.2 費希爾線性判別分析
- 5.2.1 協方差矩陣
- 5.2 判別分析
- 5.1.4 擴展閱讀
- 5.1.3 數值型預測變量
- 5.1.2 樸素貝葉斯問題求解
- 5.1.1 為什么進行精確貝葉斯分類是不現實的
- 5.1 樸素貝葉斯算法
- 第 5 章 分類
- 4.8 小結
- 4.7.4 擴展閱讀
- 4.7.3 廣義可加模型
- 4.7.2 樣條回歸
- 4.7.1 多項式回歸
- 4.7 多項式回歸與樣條回歸
- 4.6.4 偏殘差圖與非線性
- 4.6.3 異方差、非正態與相關誤差
- 4.6.2 強影響值
- 4.6.1 離群點
- 4.6 回歸診斷
- 4.5.4 交互作用與主效應
- 4.5.3 混淆變量
- 4.5.2 多重共線性
- 4.5.1 相關的預測變量
- 4.5 解釋回歸方程
- 4.4.3 有序因子變量
- 4.4.2 多水平因子變量
- 4.4.1 虛擬變量的表示方法
- 4.4 回歸中的因子變量
- 4.3.2 置信區間與預測區間
- 4.3.1 外推風險
- 4.3 使用回歸進行預測
- 4.2.6 擴展閱讀
- 4.2.5 加權回歸
- 4.2.4 模型選擇與逐步回歸
- 4.2.3 交叉驗證
- 4.2.2 模型評估
- 4.2.1 示例:金縣房屋數據
- 4.2 多元線性回歸
- 4.1.5 擴展閱讀
- 4.1.4 預測與解釋(分析)
- 4.1.3 最小二乘法
- 4.1.2 擬合值與殘差
- 4.1.1 回歸方程
- 4.1 簡單線性回歸
- 第 4 章 回歸與預測
- 3.12 小結
- 3.11.2 擴展閱讀
- 3.11.1 樣本容量
- 3.11 檢驗力與樣本容量
- 擴展閱讀
- 3.10 多臂老虎機算法
- 3.9.5 擴展閱讀
- 3.9.4 與數據科學的關聯
- 3.9.3 費希爾精確檢驗
- 3.9.2 卡方檢驗:統計理論
- 3.9.1 卡方檢驗:一種重抽樣方法
- 3.9 卡方檢驗
- 3.8.3 擴展閱讀
- 3.8.2 雙向ANOVA
- 3.8.1 F統計量
- 3.8 ANOVA
- 擴展閱讀
- 3.7 自由度
- 擴展閱讀
- 3.6 多重檢驗
- 擴展閱讀
- 3.5 t檢驗
- 3.4.5 擴展閱讀
- 3.4.4 數據科學與p值
- 3.4.3 第一類錯誤和第二類錯誤
- 3.4.2 α
- 3.4.1 p值
- 3.4 統計顯著性和p值
- 3.3.5 擴展閱讀
- 3.3.4 置換檢驗:數據科學的底線
- 3.3.3 窮盡置換檢驗和Bootstrap置換檢驗
- 3.3.2 示例:Web黏性
- 3.3.1 置換檢驗
- 3.3 重抽樣
- 3.2.4 擴展閱讀
- 3.2.3 單向假設檢驗與雙向假設檢驗
- 3.2.2 備擇假設
- 3.2.1 零假設
- 3.2 假設檢驗
- 3.1.3 擴展閱讀
- 3.1.2 為什么只有A/B,沒有C/D……
- 3.1.1 為什么要有對照組
- 3.1 A/B測試
- 第 3 章 統計實驗與顯著性檢驗
- 2.13 小結
- 2.12.5 擴展閱讀
- 2.12.4 韋布爾分布
- 2.12.3 估計故障率
- 2.12.2 指數分布
- 2.12.1 泊松分布
- 2.12 泊松及其相關分布
- 擴展閱讀
- 2.11 F分布
- 擴展閱讀
- 2.10 卡方分布
- 擴展閱讀
- 2.9 二項分布
- 擴展閱讀
- 2.8 學生的t分布
- 擴展閱讀
- 2.7 長尾分布
- 標準正態分布與QQ圖
- 2.6 正態分布
- 擴展閱讀
- 2.5 置信區間
- 2.4.2 擴展閱讀
- 2.4.1 重抽樣與Bootstrap方法
- 2.4 Bootstrap方法
- 2.3.3 擴展閱讀
- 2.3.2 標準誤差
- 2.3.1 中心極限定理
- 2.3 統計量的抽樣分布
- 2.2.2 擴展閱讀
- 2.2.1 均值回歸
- 2.2 選擇偏差
- 2.1.5 擴展閱讀
- 2.1.4 樣本均值與總體均值
- 2.1.3 數量和質量:什么時候數量更重要
- 2.1.2 隨機選擇
- 2.1.1 偏差
- 2.1 隨機抽樣和樣本偏差
- 第 2 章 數據與抽樣分布
- 1.9 小結
- 1.8.5 擴展閱讀
- 1.8.4 多個變量的可視化
- 1.8.3 分類型數據和數值型數據
- 1.8.2 兩個分類變量
- 1.8.1 六邊形分箱圖和等高線圖(繪制數值型數據之間的關系)
- 1.8 探索兩個及以上的變量
- 1.7.2 擴展閱讀
- 1.7.1 散點圖
- 1.7 相關性
- 1.6.4 擴展閱讀
- 1.6.3 概率
- 1.6.2 期望值
- 1.6.1 眾數
- 1.6 探索二元數據和分類型數據
- 1.5.4 擴展閱讀
- 1.5.3 密度圖和密度估計
- 1.5.2 頻數表和直方圖
- 1.5.1 百分位數與箱線圖
- 1.5 探索數據分布
- 1.4.4 擴展閱讀
- 1.4.3 示例:美國各州人口數量的變異性估計
- 1.4.2 基于百分位數的估計
- 1.4.1 標準差以及相關估計
- 1.4 變異性估計
- 1.3.4 擴展閱讀
- 1.3.3 示例:人口和謀殺率的位置估計
- 1.3.2 中位數和健壯的估計
- 1.3.1 均值
- 1.3 位置估計
- 1.2.3 擴展閱讀
- 1.2.2 非矩形數據結構
- 1.2.1 數據框和索引
- 1.2 矩形數據
- 擴展閱讀
- 1.1 結構化數據的要素
- 第 1 章 探索性數據分析
- 更多信息
- 致謝
- 聯系我們
- O'Reilly在線學習平臺(O'Reilly Online Learning)
- 使用示例代碼
- 排版約定
- 前言
- 獻詞
- 業界評論
- O'Reilly Media Inc. 介紹
- 版權聲明
- 版權信息
- 封面
- 封面
- 版權信息
- 版權聲明
- O'Reilly Media Inc. 介紹
- 業界評論
- 獻詞
- 前言
- 排版約定
- 使用示例代碼
- O'Reilly在線學習平臺(O'Reilly Online Learning)
- 聯系我們
- 致謝
- 更多信息
- 第 1 章 探索性數據分析
- 1.1 結構化數據的要素
- 擴展閱讀
- 1.2 矩形數據
- 1.2.1 數據框和索引
- 1.2.2 非矩形數據結構
- 1.2.3 擴展閱讀
- 1.3 位置估計
- 1.3.1 均值
- 1.3.2 中位數和健壯的估計
- 1.3.3 示例:人口和謀殺率的位置估計
- 1.3.4 擴展閱讀
- 1.4 變異性估計
- 1.4.1 標準差以及相關估計
- 1.4.2 基于百分位數的估計
- 1.4.3 示例:美國各州人口數量的變異性估計
- 1.4.4 擴展閱讀
- 1.5 探索數據分布
- 1.5.1 百分位數與箱線圖
- 1.5.2 頻數表和直方圖
- 1.5.3 密度圖和密度估計
- 1.5.4 擴展閱讀
- 1.6 探索二元數據和分類型數據
- 1.6.1 眾數
- 1.6.2 期望值
- 1.6.3 概率
- 1.6.4 擴展閱讀
- 1.7 相關性
- 1.7.1 散點圖
- 1.7.2 擴展閱讀
- 1.8 探索兩個及以上的變量
- 1.8.1 六邊形分箱圖和等高線圖(繪制數值型數據之間的關系)
- 1.8.2 兩個分類變量
- 1.8.3 分類型數據和數值型數據
- 1.8.4 多個變量的可視化
- 1.8.5 擴展閱讀
- 1.9 小結
- 第 2 章 數據與抽樣分布
- 2.1 隨機抽樣和樣本偏差
- 2.1.1 偏差
- 2.1.2 隨機選擇
- 2.1.3 數量和質量:什么時候數量更重要
- 2.1.4 樣本均值與總體均值
- 2.1.5 擴展閱讀
- 2.2 選擇偏差
- 2.2.1 均值回歸
- 2.2.2 擴展閱讀
- 2.3 統計量的抽樣分布
- 2.3.1 中心極限定理
- 2.3.2 標準誤差
- 2.3.3 擴展閱讀
- 2.4 Bootstrap方法
- 2.4.1 重抽樣與Bootstrap方法
- 2.4.2 擴展閱讀
- 2.5 置信區間
- 擴展閱讀
- 2.6 正態分布
- 標準正態分布與QQ圖
- 2.7 長尾分布
- 擴展閱讀
- 2.8 學生的t分布
- 擴展閱讀
- 2.9 二項分布
- 擴展閱讀
- 2.10 卡方分布
- 擴展閱讀
- 2.11 F分布
- 擴展閱讀
- 2.12 泊松及其相關分布
- 2.12.1 泊松分布
- 2.12.2 指數分布
- 2.12.3 估計故障率
- 2.12.4 韋布爾分布
- 2.12.5 擴展閱讀
- 2.13 小結
- 第 3 章 統計實驗與顯著性檢驗
- 3.1 A/B測試
- 3.1.1 為什么要有對照組
- 3.1.2 為什么只有A/B,沒有C/D……
- 3.1.3 擴展閱讀
- 3.2 假設檢驗
- 3.2.1 零假設
- 3.2.2 備擇假設
- 3.2.3 單向假設檢驗與雙向假設檢驗
- 3.2.4 擴展閱讀
- 3.3 重抽樣
- 3.3.1 置換檢驗
- 3.3.2 示例:Web黏性
- 3.3.3 窮盡置換檢驗和Bootstrap置換檢驗
- 3.3.4 置換檢驗:數據科學的底線
- 3.3.5 擴展閱讀
- 3.4 統計顯著性和p值
- 3.4.1 p值
- 3.4.2 α
- 3.4.3 第一類錯誤和第二類錯誤
- 3.4.4 數據科學與p值
- 3.4.5 擴展閱讀
- 3.5 t檢驗
- 擴展閱讀
- 3.6 多重檢驗
- 擴展閱讀
- 3.7 自由度
- 擴展閱讀
- 3.8 ANOVA
- 3.8.1 F統計量
- 3.8.2 雙向ANOVA
- 3.8.3 擴展閱讀
- 3.9 卡方檢驗
- 3.9.1 卡方檢驗:一種重抽樣方法
- 3.9.2 卡方檢驗:統計理論
- 3.9.3 費希爾精確檢驗
- 3.9.4 與數據科學的關聯
- 3.9.5 擴展閱讀
- 3.10 多臂老虎機算法
- 擴展閱讀
- 3.11 檢驗力與樣本容量
- 3.11.1 樣本容量
- 3.11.2 擴展閱讀
- 3.12 小結
- 第 4 章 回歸與預測
- 4.1 簡單線性回歸
- 4.1.1 回歸方程
- 4.1.2 擬合值與殘差
- 4.1.3 最小二乘法
- 4.1.4 預測與解釋(分析)
- 4.1.5 擴展閱讀
- 4.2 多元線性回歸
- 4.2.1 示例:金縣房屋數據
- 4.2.2 模型評估
- 4.2.3 交叉驗證
- 4.2.4 模型選擇與逐步回歸
- 4.2.5 加權回歸
- 4.2.6 擴展閱讀
- 4.3 使用回歸進行預測
- 4.3.1 外推風險
- 4.3.2 置信區間與預測區間
- 4.4 回歸中的因子變量
- 4.4.1 虛擬變量的表示方法
- 4.4.2 多水平因子變量
- 4.4.3 有序因子變量
- 4.5 解釋回歸方程
- 4.5.1 相關的預測變量
- 4.5.2 多重共線性
- 4.5.3 混淆變量
- 4.5.4 交互作用與主效應
- 4.6 回歸診斷
- 4.6.1 離群點
- 4.6.2 強影響值
- 4.6.3 異方差、非正態與相關誤差
- 4.6.4 偏殘差圖與非線性
- 4.7 多項式回歸與樣條回歸
- 4.7.1 多項式回歸
- 4.7.2 樣條回歸
- 4.7.3 廣義可加模型
- 4.7.4 擴展閱讀
- 4.8 小結
- 第 5 章 分類
- 5.1 樸素貝葉斯算法
- 5.1.1 為什么進行精確貝葉斯分類是不現實的
- 5.1.2 樸素貝葉斯問題求解
- 5.1.3 數值型預測變量
- 5.1.4 擴展閱讀
- 5.2 判別分析
- 5.2.1 協方差矩陣
- 5.2.2 費希爾線性判別分析
- 5.2.3 一個簡單的例子
- 5.2.4 擴展閱讀
- 5.3 邏輯回歸
- 5.3.1 邏輯響應函數和logit函數
- 5.3.2 邏輯回歸和廣義線性模型
- 5.3.3 廣義線性模型
- 5.3.4 邏輯回歸的預測值
- 5.3.5 系數和優勢比的解釋
- 5.3.6 線性回歸與邏輯回歸:共性與差異
- 5.3.7 評估模型
- 5.3.8 擴展閱讀
- 5.4 分類模型評估
- 5.4.1 混淆矩陣
- 5.4.2 稀有類問題
- 5.4.3 精確度、召回率和特異度
- 5.4.4 ROC曲線
- 5.4.5 AUC
- 5.4.6 提升度
- 5.4.7 擴展閱讀
- 5.5 非平衡數據的處理策略
- 5.5.1 欠采樣
- 5.5.2 過采樣與上(下)加權
- 5.5.3 數據生成
- 5.5.4 基于成本的分類
- 5.5.5 探索預測結果
- 5.5.6 擴展閱讀
- 5.6 小結
- 第 6 章 統計機器學習
- 6.1 KNN
- 6.1.1 一個小例子:預測貸款違約
- 6.1.2 距離的度量
- 6.1.3 獨熱編碼
- 6.1.4 標準化(歸一化,z分數)
- 6.1.5 K 的選擇
- 6.1.6 KNN作為特征引擎
- 6.2 樹模型
- 6.2.1 一個簡單的例子
- 6.2.2 遞歸分割算法
- 6.2.3 測量同質性或不純度
- 6.2.4 讓樹停止生長
- 6.2.5 預測連續的值
- 6.2.6 如何使用樹
- 6.2.7 擴展閱讀
- 6.3 裝袋法與隨機森林
- 6.3.1 裝袋法
- 6.3.2 隨機森林
- 6.3.3 變量的重要性
- 6.3.4 超參數
- 6.4 提升方法
- 6.4.1 提升算法
- 6.4.2 XGBoost
- 6.4.3 正則化:避免過擬合
- 6.4.4 超參數與交叉驗證
- 6.5 小結
- 第 7 章 無監督學習
- 7.1 主成分分析
- 7.1.1 一個簡單的例子
- 7.1.2 計算主成分
- 7.1.3 解釋主成分
- 7.1.4 對應分析
- 7.1.5 擴展閱讀
- 7.2 K-均值聚類
- 7.2.1 一個簡單的例子
- 7.2.2 K-均值算法
- 7.2.3 簇的解釋
- 7.2.4 選擇簇的數量
- 7.3 層次聚類
- 7.3.1 一個簡單的例子
- 7.3.2 樹狀圖
- 7.3.3 凝聚算法
- 7.3.4 測量相異度
- 7.4 基于模型的聚類
- 7.4.1 多元正態分布
- 7.4.2 混合正態分布
- 7.4.3 選擇簇的數量
- 7.4.4 擴展閱讀
- 7.5 數據縮放與分類變量
- 7.5.1 縮放變量
- 7.5.2 主導變量
- 7.5.3 分類數據和Gower距離
- 7.5.4 混合數據聚類中的問題
- 7.6 小結
- 擴展閱讀
- 作者介紹
- 封面介紹
- 看完了 更新時間:2021-10-26 11:06:38