官术网_书友最值得收藏!

2.1 機器學習基本概念

2.1.1 機器學習分類

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。通俗地說,機器學習是讓計算機從數據中去挖掘有價值的信息。

從不同的維度來分,機器學習可以有不同的分類。下面簡要介紹幾種常見的分類方法。

根據訓練數據是否有標簽,機器學習可以分為監督學習、半監督學習和無監督學習。

監督學習:指的是訓練數據中每個樣本都有標簽,通過標簽可以指導模型進行訓練,學到具有判別性的特征,從而能夠對未知樣本進行預測。比如圖像分類比賽ImageNet,通過利用每張圖像已有的標簽訓練模型,使得模型可以對未知的圖像進行預測,得到相應的分類結果。

無監督學習:指的是訓練數據完全沒有標簽,通過算法從數據中發現一些數據之間的約束關系,比如數據之間的關聯、距離關系等。典型的無監督算法如聚類,根據一定的度量指標,將“距離”相近的樣本聚集在一起。

半監督學習:指的是介于監督學習和無監督學習之間的一種學習方式。它的訓練數據既包含有標簽數據,也包含無標簽數據。假設如果標簽數據和無標簽數據都是從同一個分布采樣而來,那無標簽數據中含有一些數據分布相關的信息,可以作為標簽數據之外的補充。這種情況在現實中是非常常見的。比如在互聯網行業,每天會產生大量的數據,這些數據部分可能攜帶標簽,但更多的數據是不帶標簽的,如果靠人工去標記這些無標簽數據,代價是相當大的,而半監督學習可以提供一些解決思路。

從算法輸出的形式上來分,可以分為分類問題和回歸問題,這兩類問題都屬于監督學習的范疇。

分類問題:指的是模型的輸出值為離散值。比如在風控場景中,模型通常輸出的是正常/異常兩類結果;在圖像分類任務中,模型輸出為圖像所屬的具體類別。

回歸問題:指的是模型的輸出值為連續值。比如在電商廣告推薦中,模型常常輸出用戶點擊某個商品的概率,概率越高表示模型認為用戶越傾向于點擊該商品。

主站蜘蛛池模板: 鹤峰县| 综艺| 甘谷县| 托克托县| 姜堰市| 云霄县| 定州市| 文昌市| 东辽县| 韩城市| 余庆县| 东海县| 沙湾县| 台州市| 武鸣县| 侯马市| 屏南县| 富平县| 化隆| 建德市| 临汾市| 安溪县| 工布江达县| 金沙县| 昌都县| 德保县| 富源县| 墨江| 富川| 大城县| 锡林郭勒盟| 华蓥市| 防城港市| 夏河县| 安康市| 黎平县| 石阡县| 江北区| 上饶县| 齐齐哈尔市| 锦州市|