官术网_书友最值得收藏!

2.4 統(tǒng)計、概率和數(shù)據(jù)挖掘

統(tǒng)計、概率、數(shù)據(jù)挖掘,這幾個詞經(jīng)常伴隨出現(xiàn),尤其是統(tǒng)計和概率兩個概念,幾乎就像自然界的伴生礦一樣分不了家,有很多出版社都出版過叫做《概率統(tǒng)計》的書籍。

本書不準備從學術的角度對統(tǒng)計和概率做嚴格的區(qū)分,在平時工作中用的統(tǒng)計大多為計數(shù)功能,如在使用Excel時會用到COUNT、SUM、AVERAGE等統(tǒng)計函數(shù);如軟件開發(fā)中,在用SQL語言對數(shù)據(jù)庫的某些字段進行計數(shù)(count)、求和(sum)、求平均(avg)等函數(shù)。而概率的應用大多則是根據(jù)樣本的數(shù)量以及占比得到“可能性”和“分布比例”等描述數(shù)值。當然,概率的用法遠不止這些,在數(shù)據(jù)挖掘中同樣用到大量概率相關的算法,后面會有相當?shù)钠M行說明。

數(shù)據(jù)挖掘這個詞很多時候是和機器學習一起出現(xiàn)的,現(xiàn)在網(wǎng)上對這兩個詞的關系也是莫衷一是。有的說數(shù)據(jù)挖掘包含機器學習,有的說機器學習是數(shù)據(jù)挖掘發(fā)展的更高階段。在筆者看來,數(shù)據(jù)挖掘和機器學習這樣的詞匯命名應該是信息科學自然進化和衍生出來的,帶有一定的約定俗成的色彩,人們的看法見仁見智也在情理之中。

我的觀點是這樣。

首先我認為沒有必要一定要給兩個詞匯劃一個界限,或者一定要對它們做嚴格的概念區(qū)分,因為區(qū)分的標準到目前本就沒有科學而無爭議的界定,況且能不能分清一個算法屬于數(shù)據(jù)挖掘的范疇還是機器學習的范疇對于算法本身使用是沒有任何影響的,這兩個詞大家如果想聽解釋的話,不妨只從字面意思去理解就已經(jīng)足夠了。

數(shù)據(jù)挖掘——首先是有一定量的數(shù)據(jù)作為研究對象,挖掘——顧名思義,說明有一些東西并不是放在表面上一眼就能看明白,要進行深度的研究、對比、甄別等工作,最終從中找到規(guī)律或知識,“挖掘”這個詞用得很形象。

機器學習——先想想人類學習的目的是什么,是掌握知識,掌握能力,掌握技巧,最終能夠進行比較復雜或者高要求的工作。那么類比一下機器,我們讓機器學習,不管學習什么,最終目的都是讓它獨立或至少半獨立地進行相對復雜或者高要求的工作。這里提到的機器學習更多是讓機器幫助人類做一些大規(guī)模的數(shù)據(jù)識別、分揀、規(guī)律總結等人類做起來比較花時間的事情。但是請注意,與數(shù)據(jù)挖掘一起出現(xiàn)的這個機器學習概念和我們說的“人工智能”還是相差甚遠,因為這里面對“智能”的考究程度實在是太低了。

主站蜘蛛池模板: 京山县| 永春县| 昌吉市| 萝北县| 隆德县| 宿松县| 临沧市| 吴忠市| 怀宁县| 长沙市| 临夏市| 黄山市| 新密市| 驻马店市| 林周县| 麟游县| 富宁县| 西华县| 洞口县| 江油市| 锦屏县| 曲周县| 鄱阳县| 大田县| 汽车| 聂荣县| 横峰县| 乌拉特前旗| 东港市| 都兰县| 泌阳县| 广汉市| 白河县| 古丈县| 佳木斯市| 湖南省| 大石桥市| 隆德县| 盘锦市| 岳池县| 满城县|