- 人工智能基礎
- 周穎 鄭文明 徐衛 趙力編著
- 573字
- 2020-09-18 18:21:25
2.1 分類任務介紹
人工智能系統處理的是各種各樣的數據,例如圖像、聲音、文字、視頻等。數據(data)是信息的載體。如果把機器學習歸為兩大類,那么主要的工作可以分為:分類和聚類。而分類任務基本上占整個機器學習或者是數據挖掘領域的70%,可見我們遇到的很多問題,都可以用分類的算法進行解決。分類(classification)就是要根據所給數據的不同特點,判斷它屬于哪個類別。
在這一章,我們學習一個簡單的分類任務——對鳶尾花(iris)的兩個品種進行分類。鳶尾花的花瓣鮮艷美麗,葉片青翠碧綠,令人賞心悅目。全世界大約有30個品種的鳶尾花,常見的有變色鳶尾(iris versicolor)和山鳶尾(iris setosa)。它們有著形狀與色彩相似的花瓣和萼片,花瓣和花萼的位置如圖2-1所示。一般來說,變色鳶尾有較大的花瓣,而山鳶尾的花瓣較小(圖2-2)。

圖2-1 花瓣和花萼

圖2-2 變色鳶尾和山鳶尾
以上我們通過對鳶尾花的分類這個例子來了解分類問題中的基本概念和流程。我們想要構建一個簡單的人工智能系統,它能夠像人類一樣區分變色鳶尾和山鳶尾。像這樣完成分類任務的人工智能系統,被稱為分類器(classifier)。分類器是數據挖掘中對樣本進行分類的方法的統稱。
圖2-3展示了整個系統的流程。當看到一朵鳶尾花時,首先提取它的特征,然后將這些特征輸入到訓練好的分類器中,分類器就能夠根據這些特征做出預測,輸出鳶尾花的品種。在接下來的小節中,讓我們一步一步地構建出這個系統吧。

圖2-3 分類流程