官术网_书友最值得收藏!

2.1 為什么這一章出現(xiàn)在這里

我們經(jīng)常想要討論不同的數(shù)據(jù)段之間的關(guān)系,但不需要單獨討論每段數(shù)據(jù)。從某種意義上說,大部分數(shù)據(jù)是“相同的”的嗎?還是它們的分布跨越了一個很廣的范圍而存在“差異”?是否有一些奇怪的數(shù)據(jù)看起來不太合群?數(shù)據(jù)間是否存在某種連接了部分或是所有數(shù)據(jù)段的模式?

這些問題在機器學(xué)習(xí)中是很重要的,因為我們對數(shù)據(jù)了解得越多,就能更好地去選擇和設(shè)計用于研究和控制數(shù)據(jù)的工具。

打個比方,假設(shè)我們需要把兩塊木板和一小塊給定的金屬連接起來,如果給定的金屬是釘子,我們就要選用錘子;如果給定的金屬是螺絲,我們就要選用螺絲刀。通過分析得到的數(shù)據(jù),我們就可以選擇最合適的工具來從數(shù)據(jù)中獲得最大的價值。

這些工具給出了語言和概念,讓我們可以討論大型數(shù)據(jù)集,但它們往往都是和統(tǒng)計學(xué)捆綁在一起的。

讓我們來直面一個真相:你可能不會讀一本機器學(xué)習(xí)的書,因為你想了解的是統(tǒng)計學(xué)。但是這些想法是如此重要,以至于你至少需要熟悉一些機器學(xué)習(xí)的內(nèi)容。從論文和源代碼注釋到館藏文獻,統(tǒng)計的思想和語言在機器學(xué)習(xí)中無處不在,至少了解一個數(shù)據(jù)集的基本統(tǒng)計情況對于選擇一個合適的用于學(xué)習(xí)數(shù)據(jù)的工具和算法來說是不可或缺的。

因此,我們將盡力精簡本章的篇幅并突出重點,即涵蓋核心思想,但不深入研究數(shù)學(xué)理論或細節(jié)。我們的目標(biāo)是建立對于統(tǒng)計學(xué)的充分理解和直覺,以在進行機器學(xué)習(xí)時做出正確的決定。

與統(tǒng)計學(xué)思想有著緊密聯(lián)系的是隨機數(shù),我們本章會介紹更多有關(guān)隨機數(shù)(random number)的概念,而不僅是庫中的一個例程。

即便你已經(jīng)熟悉統(tǒng)計學(xué)和隨機數(shù)的相關(guān)知識,或者確實不在意它們,也應(yīng)快速瀏覽一下這部分內(nèi)容,這樣就會知道我們在本書中使用的一些語言,在書中遇到這些概念時,也知道到哪里去找。

主站蜘蛛池模板: 分宜县| 云安县| 双城市| 湘潭市| 农安县| 蚌埠市| 定西市| 全椒县| 辽宁省| 玉山县| 桦南县| 麦盖提县| 万源市| 雅安市| 诏安县| 洛扎县| 留坝县| 西林县| 西城区| 临澧县| 武乡县| 马公市| 宁化县| 恩平市| 巩留县| 三门峡市| 岑巩县| 永嘉县| 大连市| 张家港市| 南木林县| 维西| 澎湖县| 和田市| 民乐县| 鲁山县| 大庆市| 邳州市| 南皮县| 肇东市| 商洛市|