- Python機器學習(原書第3版)
- (美)塞巴斯蒂安·拉施卡 瓦希德·米爾賈利利
- 995字
- 2021-06-11 16:13:35
1.3 基本術語與符號
本章討論了監督學習、無監督學習和強化學習這三大類機器學習,下面將介紹本書中常用的基本術語。1.3.1節將介紹我們在引用數據集時將會用到的常用術語,以及更精確和高效地進行溝通所采用的數學符號。
因為機器學習領域廣闊而且跨學科,所以肯定會遇到許多指向相同概念的不同術語。1.3.2節收集了機器學習文獻中的許多常用術語,希望在你閱讀更多不同的機器學習文獻時能夠有所幫助。
1.3.1 本書中使用的符號和約定
圖1-8摘要描述了鳶尾屬植物數據集,這是機器學習領域的典型示例。該數據集包含了山鳶尾、變色鳶尾和弗吉尼亞鳶尾三種不同鳶尾屬植物的150多朵鳶尾花的測量結果。數據集每行存儲一朵花的樣本數據,每列存儲每種花的度量數據(以厘米為單位),也稱之為數據集的特征。

圖 1-8
為了能簡單而且高效地實現符號表示,我們將會用到線性代數的一些基礎知識。下面的章節中將用矩陣和向量符號來表示數據。我們將按照約定將每個樣本表示為特征矩陣X的一行,每個特征表示為一列。
鳶尾屬植物數據集包含150個樣本和4個特征,可以用150×4矩陣表示:

標注約定
除非特別注明,本書的其余部分將用上標i指第i個訓練樣本,下標j表示訓練樣本的第j個維度。
用小寫和粗體字符表示向量,用大寫和粗體字符表示矩陣
。分別采用斜體字符x(n)或者
表示向量或者矩陣中的某個元素。
例如表示第150個鳶尾花樣本的第一個維度,即萼片長度。因此,該矩陣的每行代表一朵花的數據,可以寫成4維行向量

每個特征維度是150個元素的列向量,例如:

類似地,可以把目標變量(這里是類標簽)存儲為150個元素的列向量:

1.3.2 機器學習的術語
機器學習領域非常廣泛,而且因為有許多科學家來自其他的研究領域,因此學科的交叉現象比較嚴重。很多似曾相識的術語和概念被重新認識或者定義,名稱可能會有所不同。為方便起見,下面精選了常用術語及其同義詞,希望對大家閱讀本書和其他人工智能書籍有所幫助。
- 訓練樣本:表中的行,代表數據集的觀察、記錄、個體或者樣本(在多數情況下,樣本指訓練樣本集)。
- 訓練:模型擬合,對參數型模型而言,類似參數估計。
- 特征,縮寫為x:指數據表或矩陣的列。與預測因子、變量、輸入、屬性或協變量同義。
- 目標,縮寫為y:與結果、輸出、響應變量、因變量、分類標簽和真值同義。
- 損失函數:經常與代價函數同義。有時也被稱為誤差函數。在有些文獻中,術語損失指的是對單個數據點進行測量的損失,而代價是對整個數據集進行測量(平均或者求和)的損失。
- JavaScript前端開發模塊化教程
- Microsoft Dynamics 365 Extensions Cookbook
- 區塊鏈架構與實現:Cosmos詳解
- Python應用輕松入門
- TypeScript圖形渲染實戰:基于WebGL的3D架構與實現
- Python機器學習算法與實戰
- Java Web開發詳解
- Julia 1.0 Programming Complete Reference Guide
- PowerDesigner 16 從入門到精通
- Application Development with Swift
- Node.js 6.x Blueprints
- 你好!Java
- Java EE基礎實用教程
- R語言數據分析從入門到實戰
- Java程序設計(項目教學版)