- 白話大數(shù)據(jù)與機器學習
- 高揚 衛(wèi)崢 尹會生等
- 904字
- 2019-01-03 16:36:45
2.4 統(tǒng)計、概率和數(shù)據(jù)挖掘
統(tǒng)計、概率、數(shù)據(jù)挖掘,這幾個詞經(jīng)常伴隨出現(xiàn),尤其是統(tǒng)計和概率兩個概念,幾乎就像自然界的伴生礦一樣分不了家,有很多出版社都出版過叫做《概率統(tǒng)計》的書籍。
本書不準備從學術的角度對統(tǒng)計和概率做嚴格的區(qū)分,在平時工作中用的統(tǒng)計大多為計數(shù)功能,如在使用Excel時會用到COUNT、SUM、AVERAGE等統(tǒng)計函數(shù);如軟件開發(fā)中,在用SQL語言對數(shù)據(jù)庫的某些字段進行計數(shù)(count)、求和(sum)、求平均(avg)等函數(shù)。而概率的應用大多則是根據(jù)樣本的數(shù)量以及占比得到“可能性”和“分布比例”等描述數(shù)值。當然,概率的用法遠不止這些,在數(shù)據(jù)挖掘中同樣用到大量概率相關的算法,后面會有相當?shù)钠M行說明。
數(shù)據(jù)挖掘這個詞很多時候是和機器學習一起出現(xiàn)的,現(xiàn)在網(wǎng)上對這兩個詞的關系也是莫衷一是。有的說數(shù)據(jù)挖掘包含機器學習,有的說機器學習是數(shù)據(jù)挖掘發(fā)展的更高階段。在筆者看來,數(shù)據(jù)挖掘和機器學習這樣的詞匯命名應該是信息科學自然進化和衍生出來的,帶有一定的約定俗成的色彩,人們的看法見仁見智也在情理之中。
我的觀點是這樣。
首先我認為沒有必要一定要給兩個詞匯劃一個界限,或者一定要對它們做嚴格的概念區(qū)分,因為區(qū)分的標準到目前本就沒有科學而無爭議的界定,況且能不能分清一個算法屬于數(shù)據(jù)挖掘的范疇還是機器學習的范疇對于算法本身使用是沒有任何影響的,這兩個詞大家如果想聽解釋的話,不妨只從字面意思去理解就已經(jīng)足夠了。
數(shù)據(jù)挖掘——首先是有一定量的數(shù)據(jù)作為研究對象,挖掘——顧名思義,說明有一些東西并不是放在表面上一眼就能看明白,要進行深度的研究、對比、甄別等工作,最終從中找到規(guī)律或知識,“挖掘”這個詞用得很形象。
機器學習——先想想人類學習的目的是什么,是掌握知識,掌握能力,掌握技巧,最終能夠進行比較復雜或者高要求的工作。那么類比一下機器,我們讓機器學習,不管學習什么,最終目的都是讓它獨立或至少半獨立地進行相對復雜或者高要求的工作。這里提到的機器學習更多是讓機器幫助人類做一些大規(guī)模的數(shù)據(jù)識別、分揀、規(guī)律總結等人類做起來比較花時間的事情。但是請注意,與數(shù)據(jù)挖掘一起出現(xiàn)的這個機器學習概念和我們說的“人工智能”還是相差甚遠,因為這里面對“智能”的考究程度實在是太低了。
- LibGDX Game Development Essentials
- Hands-On Data Structures and Algorithms with Rust
- 使用GitOps實現(xiàn)Kubernetes的持續(xù)部署:模式、流程及工具
- Modern Programming: Object Oriented Programming and Best Practices
- 商業(yè)分析思維與實踐:用數(shù)據(jù)分析解決商業(yè)問題
- 企業(yè)級容器云架構開發(fā)指南
- Unity 2018 By Example(Second Edition)
- 實現(xiàn)領域驅動設計
- 云工作時代:科技進化必將帶來的新工作方式
- Delphi High Performance
- 深入理解Flink:實時大數(shù)據(jù)處理實踐
- 一本書講透數(shù)據(jù)治理:戰(zhàn)略、方法、工具與實踐
- 商業(yè)銀行數(shù)據(jù)庫管理實踐
- 數(shù)據(jù)質量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質量問題解決之道
- Learning Game AI Programming with Lua