- 卷積神經網絡的Python實現
- 單建華
- 1362字
- 2020-05-06 16:43:37
1.2 基本術語
機器學習的過程與人類學習的過程十分類似,必須有大量的西瓜數據,這些數據構成訓練數據集。機器從這些訓練數據集中學習,這個過程類似人類的歸納推理,從而獲得隱藏在數據背后的模型,然后利用這個模型對不在訓練集中的新西瓜進行預測,根據預測的準確率來評判模型的優劣。一般來說,訓練數據集越大,機器學習到的模型的預測性能就越好。
機器學習的本質是計算機通過數據來擬合隱藏在數據背后的模型。注意是擬合模型,不是推導模型。物理學家的研究目的是推導出確定模型,如建立自由落體公式,機器學習專家研究的目的是用數據來擬合模型,如根據自由落體不同時刻下落距離的一系列數據,建立擬合模型來預測任意時刻的下落距離。所以如果一個問題已經存在確定模型,就不需再用機器學習。
怎么確定機器真正學習到了挑選西瓜的知識呢?這只能提供一些不在訓練集中出現過的新西瓜,讓機器根據它們的根蒂、敲聲、觸感和紋理等屬性來判斷好壞,判斷的準確率越高,就說明機器掌握挑西瓜的知識越好。
我們把每個西瓜數據稱為一個樣本,每個樣本數據包括兩部分:一部分是西瓜屬性數據,也稱為特征屬性,如根蒂、敲聲、觸感和紋理等;另一部分是西瓜好壞的標簽,表示為(x, y),其中x是屬性數據取值,如根蒂=蜷曲、敲聲=清脆、觸感=硬滑、紋理=模糊等,y 是標簽,表示西瓜的好壞。標簽取值為離散值,是分類問題:如果離散值只取兩個,則是二分類問題,如本例中西瓜標簽取“好”和“壞”兩個值;如果離散值取多個,則是多分類問題,如0到9的數字識別是10分類問題,而二分類問題是多分類問題的基礎。標簽取值為連續值,是回歸問題。如果不僅要判斷西瓜好壞,還要進一步判斷西瓜好壞的程度(0表示最壞,1表示最好,0.35表示較壞,0.75表示較好等),就是回歸問題。
機器學習得到的模型,本質上是得到從特征屬性x到標簽y的映射f:y=f(x, w),其中w是模型參數。在神經網絡模型中,w是所有權重參數,有的映射不包含參數 w,如最近鄰和樸素貝葉斯。對于二分類問題,通常令y={+1, -1};對于多分類問題,則|y|>2;對于回歸問題,y∈R,其中R是實數集。本書中映射和模型兩個詞同義,有時混用,請讀者注意。
如何評價模型好壞呢?可以讓模型預測新樣本,得到預測標簽y?, y?=f(x, w)。本書中,如果標簽上有帽子上標,則表示預測標簽,無上標則表示真實標簽。預測標簽與真實標簽進行比較,以評判預測效果,進而評價模型的好壞。注意評價模型好壞時,必須使用新樣本,即沒有在訓練集中出現過的樣本,這樣才能真實評價模型的性能,模型預測新樣本的能力稱為泛化性能。評價一個模型泛化性能時采用的樣本集稱為測試集。
如果采用訓練樣本進行預測,則機器學習算法可以采用偷懶的辦法來達到極高的準確率,甚至100%。因為算法只要死記硬背所有的訓練樣本,預測時使用查詢方法,準確率即可達到100%,但實際上算法沒有進行任何有意義的學習。這和學生學習類似,老師為了評估學生的學習效果,需要組織考試,如果把答案提前告訴學生,則學生只需死記硬背,就能考100分,但這完全不能真實反映學生的學習能力,只有考試題目學生從來沒有做過,才能較為真實地評估學生學習的效果。那是不是只要試卷上的題目是學生沒有做過的,就是好試卷?顯然不是,題目必須是專家精心設計的,能涵蓋大部分知識點、難易適中。測試集和訓練集好比試卷,必須精心設計,盡量覆蓋樣本分布空間。
- 大規模數據分析和建模:基于Spark與R
- Access 2016數據庫教程(微課版·第2版)
- 云數據中心基礎
- Unity 5.x Game AI Programming Cookbook
- Google Visualization API Essentials
- Learning Spring Boot
- SQL查詢:從入門到實踐(第4版)
- 大話Oracle Grid:云時代的RAC
- 數據驅動設計:A/B測試提升用戶體驗
- The Game Jam Survival Guide
- 數據庫技術實用教程
- 大數據架構商業之路:從業務需求到技術方案
- 云原生數據中臺:架構、方法論與實踐
- Doris實時數倉實戰
- SIEMENS數控技術應用工程師:SINUMERIK 840D-810D數控系統功能應用與維修調整教程