- 機器學習實戰:基于Scikit-Learn、Keras和TensorFlow(原書第3版)
- (法)奧雷利安·杰龍
- 926字
- 2024-09-11 17:33:01
1.7 練習題
在本章中,我們介紹了機器學習中一些最重要的概念。在接下來的幾章中,我們將更深入地研究并編寫更多代碼,但在此之前,請確保你可以回答以下問題:
1.如何定義機器學習?
2.機器學習在哪些問題上表現突出,你能說出四類應用嗎?
3.什么是被標記的訓練集?
4.最常見的兩種監督學習任務是什么?
5.你能說出四種常見的無監督學習任務嗎?
6.你會使用什么類型的算法讓機器人在各種未知地形中行走?
7.你會使用什么類型的算法將客戶分成多個組?
8.你會把垃圾郵件檢測問題定義為監督學習問題還是無監督學習問題?
9.什么是在線學習系統?
10.什么是核外學習?
11.什么類型的算法依賴于相似性度量來進行預測?
12.模型參數和模型超參數有什么區別?
13.基于模型的算法搜索什么?它們最常用的成功策略是什么?它們如何做出預測?
14.你能說出機器學習中的四個主要挑戰嗎?
15.如果你的模型在訓練數據上表現很好,但對新實例的泛化能力很差,這是怎么回事?你能說出三種可能的解決方案嗎?
16.什么是測試集?為什么要使用它?
17.驗證集的目的是什么?
18.什么是train-dev集?什么時候需要它?如何使用?
19.如果使用測試集來調整超參數會出現什么問題?
這些練習題的答案可在本章notebook的末尾找到,網址為https://homl.info/colab3。
[1] 有趣的事實:這個聽起來很奇怪的名字是Francis Galton在研究高個子的孩子往往比父母矮的事實時引入的一個統計術語。由于孩子比父母要矮一些,他稱這種現象為回歸到均值。這個術語后來被他應用于分析變量之間相關性的方法上。
[2] 注意,動物與車輛可能離得很遠,馬與鹿的距離近但和鳥的距離遠。圖的使用得到了Richard Socher等人許可,“Zero-Shot Learning Through Cross-Modal Transfer”,Proceedings of the 26th International Conference on Neural Information Processing Systems 1(2013):935-943。
[3] 這就是系統運行良好的情況。在實踐中,它通常會為每個人創建幾個集群,有時會將兩個看起來相似的人混合在一起,因此你可能需要為每個人提供一些標簽并手動清理一些集群。
[4] 按照慣例,希臘字母θ(theta)通常用于表示模型參數。
[5] 如果你還沒有看懂所有的代碼也沒關系,我將在以下各章中介紹Scikit-Learn。
[6] 例如,根據上下文知道應該寫“to”“two”還是“too”。
[7] 圖經Michele Banko和Eric Brill許可轉載,“Scaling to Very Very Large Corpora for Natural Language Disambiguation”,Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (2001):26-33。
[8] Peter Norvig et al.,“The Unreasonable Effectiveness of Data”,IEEE Intelligent Systems 24,no. 2 (2009):8-12.
[9] David Wolpert,“The Lack of A Priori Distinctions Between Learning Algorithms”,Neural Computation 8,no. 7 (1996):1341-1390.