不用网络和流量的游戏

書名：深入淺出圖神經網絡：GNN原理解析
作者名：劉忠雨李彥霖周洋
本章字數： 802字
更新時間： 2020-01-21 15:41:00

2.1 機器學習基本概念

2.1.1 機器學習分類

機器學習是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。通俗地說，機器學習是讓計算機從數據中去挖掘有價值的信息。

從不同的維度來分，機器學習可以有不同的分類。下面簡要介紹幾種常見的分類方法。

根據訓練數據是否有標簽，機器學習可以分為監督學習、半監督學習和無監督學習。

監督學習：指的是訓練數據中每個樣本都有標簽，通過標簽可以指導模型進行訓練，學到具有判別性的特征，從而能夠對未知樣本進行預測。比如圖像分類比賽ImageNet，通過利用每張圖像已有的標簽訓練模型，使得模型可以對未知的圖像進行預測，得到相應的分類結果。

無監督學習：指的是訓練數據完全沒有標簽，通過算法從數據中發現一些數據之間的約束關系，比如數據之間的關聯、距離關系等。典型的無監督算法如聚類，根據一定的度量指標，將“距離”相近的樣本聚集在一起。

半監督學習：指的是介于監督學習和無監督學習之間的一種學習方式。它的訓練數據既包含有標簽數據，也包含無標簽數據。假設如果標簽數據和無標簽數據都是從同一個分布采樣而來，那無標簽數據中含有一些數據分布相關的信息，可以作為標簽數據之外的補充。這種情況在現實中是非常常見的。比如在互聯網行業，每天會產生大量的數據，這些數據部分可能攜帶標簽，但更多的數據是不帶標簽的，如果靠人工去標記這些無標簽數據，代價是相當大的，而半監督學習可以提供一些解決思路。

從算法輸出的形式上來分，可以分為分類問題和回歸問題，這兩類問題都屬于監督學習的范疇。

分類問題：指的是模型的輸出值為離散值。比如在風控場景中，模型通常輸出的是正常/異常兩類結果；在圖像分類任務中，模型輸出為圖像所屬的具體類別。

回歸問題：指的是模型的輸出值為連續值。比如在電商廣告推薦中，模型常常輸出用戶點擊某個商品的概率，概率越高表示模型認為用戶越傾向于點擊該商品。

官术网_书友最值得收藏!

深入淺出圖神經網絡：GNN原理解析

2.1 機器學習基本概念

2.1.1 機器學習分類