- 深入淺出圖神經網絡:GNN原理解析
- 劉忠雨 李彥霖 周洋
- 802字
- 2020-01-21 15:41:00
2.1 機器學習基本概念
2.1.1 機器學習分類
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。通俗地說,機器學習是讓計算機從數據中去挖掘有價值的信息。
從不同的維度來分,機器學習可以有不同的分類。下面簡要介紹幾種常見的分類方法。
根據訓練數據是否有標簽,機器學習可以分為監督學習、半監督學習和無監督學習。
監督學習:指的是訓練數據中每個樣本都有標簽,通過標簽可以指導模型進行訓練,學到具有判別性的特征,從而能夠對未知樣本進行預測。比如圖像分類比賽ImageNet,通過利用每張圖像已有的標簽訓練模型,使得模型可以對未知的圖像進行預測,得到相應的分類結果。
無監督學習:指的是訓練數據完全沒有標簽,通過算法從數據中發現一些數據之間的約束關系,比如數據之間的關聯、距離關系等。典型的無監督算法如聚類,根據一定的度量指標,將“距離”相近的樣本聚集在一起。
半監督學習:指的是介于監督學習和無監督學習之間的一種學習方式。它的訓練數據既包含有標簽數據,也包含無標簽數據。假設如果標簽數據和無標簽數據都是從同一個分布采樣而來,那無標簽數據中含有一些數據分布相關的信息,可以作為標簽數據之外的補充。這種情況在現實中是非常常見的。比如在互聯網行業,每天會產生大量的數據,這些數據部分可能攜帶標簽,但更多的數據是不帶標簽的,如果靠人工去標記這些無標簽數據,代價是相當大的,而半監督學習可以提供一些解決思路。
從算法輸出的形式上來分,可以分為分類問題和回歸問題,這兩類問題都屬于監督學習的范疇。
分類問題:指的是模型的輸出值為離散值。比如在風控場景中,模型通常輸出的是正常/異常兩類結果;在圖像分類任務中,模型輸出為圖像所屬的具體類別。
回歸問題:指的是模型的輸出值為連續值。比如在電商廣告推薦中,模型常常輸出用戶點擊某個商品的概率,概率越高表示模型認為用戶越傾向于點擊該商品。