官术网_书友最值得收藏!

1.3 基本術語與符號

本章討論了監督學習、無監督學習和強化學習這三大類機器學習,下面將介紹本書中常用的基本術語。1.3.1節將介紹我們在引用數據集時將會用到的常用術語,以及更精確和高效地進行溝通所采用的數學符號。

因為機器學習領域廣闊而且跨學科,所以肯定會遇到許多指向相同概念的不同術語。1.3.2節收集了機器學習文獻中的許多常用術語,希望在你閱讀更多不同的機器學習文獻時能夠有所幫助。

1.3.1 本書中使用的符號和約定

圖1-8摘要描述了鳶尾屬植物數據集,這是機器學習領域的典型示例。該數據集包含了山鳶尾、變色鳶尾和弗吉尼亞鳶尾三種不同鳶尾屬植物的150多朵鳶尾花的測量結果。數據集每行存儲一朵花的樣本數據,每列存儲每種花的度量數據(以厘米為單位),也稱之為數據集的特征。

023-01

圖 1-8

為了能簡單而且高效地實現符號表示,我們將會用到線性代數的一些基礎知識。下面的章節中將用矩陣和向量符號來表示數據。我們將按照約定將每個樣本表示為特征矩陣X的一行,每個特征表示為一列。

鳶尾屬植物數據集包含150個樣本和4個特征,可以用150×4矩陣023-02表示:

023-03

008-01

標注約定

除非特別注明,本書的其余部分將用上標i指第i個訓練樣本,下標j表示訓練樣本的第j個維度。

用小寫和粗體字符表示向量023-04,用大寫和粗體字符表示矩陣023-05。分別采用斜體字符x(n)或者023-06表示向量或者矩陣中的某個元素。

例如024-01表示第150個鳶尾花樣本的第一個維度,即萼片長度。因此,該矩陣的每行代表一朵花的數據,可以寫成4維行向量024-02

024-03

每個特征維度是150個元素的列向量024-04,例如:

024-05

類似地,可以把目標變量(這里是類標簽)存儲為150個元素的列向量:

024-06

1.3.2 機器學習的術語

機器學習領域非常廣泛,而且因為有許多科學家來自其他的研究領域,因此學科的交叉現象比較嚴重。很多似曾相識的術語和概念被重新認識或者定義,名稱可能會有所不同。為方便起見,下面精選了常用術語及其同義詞,希望對大家閱讀本書和其他人工智能書籍有所幫助。

  • 訓練樣本:表中的行,代表數據集的觀察、記錄、個體或者樣本(在多數情況下,樣本指訓練樣本集)。
  • 訓練:模型擬合,對參數型模型而言,類似參數估計。
  • 特征,縮寫為x:指數據表或矩陣的列。與預測因子、變量、輸入、屬性或協變量同義。
  • 目標,縮寫為y:與結果、輸出、響應變量、因變量、分類標簽和真值同義。
  • 損失函數:經常與代價函數同義。有時也被稱為誤差函數。在有些文獻中,術語損失指的是對單個數據點進行測量的損失,而代價是對整個數據集進行測量(平均或者求和)的損失。
主站蜘蛛池模板: 鄂州市| 纳雍县| 清新县| 赣榆县| 正安县| 乌什县| 喀什市| 镇康县| 象州县| 莆田市| 深州市| 泰兴市| 芜湖市| 谢通门县| 大石桥市| 乌鲁木齐县| 广平县| 鄂托克旗| 海晏县| 禄丰县| 青岛市| 海晏县| 葵青区| 双鸭山市| 孟连| 上蔡县| 文化| 陕西省| 沁水县| 太保市| 托里县| 建始县| 天水市| 漳平市| 陕西省| 曲阳县| 武穴市| 宜宾县| 通化市| 沾化县| 吴江市|