官术网_书友最值得收藏!

1.2 大數(shù)據(jù)的科學(xué)性

開玩笑地講,對于龍的傳人,我們應(yīng)該很熟悉云,因?yàn)辇埧偸浅鰶]在云端;而人類生下來就有10根手指,所以人人都會(huì)數(shù)數(shù)。因此,“云計(jì)算”和“大數(shù)據(jù)”才會(huì)這么火,成為街談巷議的話題。

玩笑歸玩笑,但是,應(yīng)當(dāng)以怎樣的態(tài)度來研究和闡述大數(shù)據(jù),是非常重要的。往較深層次說,大數(shù)據(jù)是用來幫助人類進(jìn)行求知活動(dòng)的,那就涉及是否應(yīng)當(dāng)將大數(shù)據(jù)納入“科學(xué)”的范圍,并以科學(xué)研究的態(tài)度來開展大數(shù)據(jù)的研究。當(dāng)然,理應(yīng)注重大數(shù)據(jù)作為科學(xué)的方面,從方法論的角度來解讀大數(shù)據(jù)。

人類之所以配稱為萬物之靈,主要是因?yàn)槿祟愊啾绕渌麆?dòng)物會(huì)求知,從求知活動(dòng)中獲取經(jīng)驗(yàn),總結(jié)為知識,世代相傳,累積為文化,并以之作為利器,戰(zhàn)勝萬物,終而主宰這個(gè)世界。縱觀人類有史以來的求知活動(dòng),大致不外乎兩個(gè)目的:第一,由了解適應(yīng)其所居住的環(huán)境起,進(jìn)而企圖改變控制其外在的物質(zhì)世界,從而獲得生存的安全與舒適;第二,由了解自身以及同他人的關(guān)系起,進(jìn)而企圖化解困惑與沖突,改變其內(nèi)在精神世界,從而獲得生活的意義與價(jià)值。數(shù)千年來人類求知活動(dòng)的結(jié)果,在第一目的之下發(fā)展了各種科學(xué)與技術(shù);在第二目的之下,發(fā)展了不同的哲學(xué)與宗教。而大數(shù)據(jù)這一學(xué)科(或者稱為技術(shù)),則受了科學(xué)理念的影響,它是從人類目前的數(shù)學(xué)、數(shù)據(jù)科學(xué)等現(xiàn)有學(xué)科中綜合出來的,一門關(guān)于大規(guī)模數(shù)據(jù)之間聯(lián)系的挖掘問題的新科學(xué)知識。比較兩個(gè)目的下人類求知活動(dòng)的結(jié)果,顯而易見的是,科學(xué)技術(shù)對人類物質(zhì)生活的貢獻(xiàn),和哲學(xué)宗教對人類精神生活的幫助是同樣重要的。

“大數(shù)據(jù)”這個(gè)名稱常被人誤解。被人誤解的原因,主要是對大數(shù)據(jù)的闡釋上很容易讓人誤解為IT的新瓶裝舊酒,因?yàn)槠浜w的技術(shù)內(nèi)容實(shí)際上是已經(jīng)被長期發(fā)展的各類技術(shù),而大數(shù)據(jù)這一名詞則是將這些技術(shù)進(jìn)行綜合后冠以的一個(gè)新詞,并且該詞具有一定的迷惑性,容易使人望文生義,而不能參透這三個(gè)字背后的確切涵義。本書討論大數(shù)據(jù),首先想探討的一點(diǎn)是“大數(shù)據(jù)”是否配稱為“科學(xué)”這一個(gè)問題。

要解決“大數(shù)據(jù)”是否配稱為“科學(xué)”,首先要澄清的一個(gè)最基本概念就是:何謂科學(xué)(Science)?按一般辭典或辭源的解釋,廣而言之,凡有組織有系統(tǒng)的知識,均稱之為科學(xué);狹而言之,則專指自然科學(xué)。這是一種通俗的解釋法,這種解釋存在兩個(gè)缺點(diǎn)。第一,只以“組織”和“系統(tǒng)”兩個(gè)特征來顯示知識的科學(xué)性是不夠的。電話簿與成語辭典都是有組織有系統(tǒng)的知識,試問這兩種出版物算不算是科學(xué)?只能說編制電話簿的方法是科學(xué)的,但不能說電話簿本身就是科學(xué)。第二,單以知識的性質(zhì)為評定標(biāo)準(zhǔn)也是不夠的。一般人總把物理、化學(xué)、生物學(xué)等視為科學(xué)的代表,其實(shí)這類科目之所以配稱之為科學(xué)的原因,絕非單指其知識的性質(zhì),更重要的是,這類科目都采用了科學(xué)方法。

科學(xué)一詞究竟如何解釋?以下的定義是最清楚的:科學(xué)是運(yùn)用系統(tǒng)的方法處理問題,從而發(fā)現(xiàn)事實(shí)變化的真相,進(jìn)而探求其原理原則的學(xué)問。這一定義中包括了三個(gè)要素:①問題,②方法,③目的。任何一種科學(xué)的產(chǎn)生,都是起于有待解決的問題,而且問題表現(xiàn)于外在的事實(shí)或現(xiàn)象,變化不定。天有風(fēng)雷雨電之變,產(chǎn)生了氣象學(xué);人有生老病死之變,產(chǎn)生了醫(yī)學(xué)。問題是多變的,要解決某種問題,自然需要適于問題的方法。在定義中所強(qiáng)調(diào)的“系統(tǒng)的方法”,當(dāng)屬此意。而這一定義中所指的科學(xué)目的,顯然包括了發(fā)現(xiàn)事實(shí)變化真相和探求事實(shí)變化中的原理原則這兩個(gè)層次。

基于以上對科學(xué)定義的分析,大致可以對“科學(xué)”一詞得到如下的認(rèn)識:有待解決的問題只是科學(xué)研究的對象,其本身并不代表科學(xué),只有科學(xué)的方法以及采用該方法所要達(dá)到的目的,才真正符合科學(xué)的涵義。接下來將根據(jù)這一認(rèn)識,來解答“大數(shù)據(jù)配稱為科學(xué)嗎?”這一問題。

回答之前,對科學(xué)的特征與科學(xué)的目的,需要做必要的補(bǔ)充說明。前文曾指出,一種知識是否配稱為科學(xué),其關(guān)鍵不在于知識本身的性質(zhì),也不在于知識組織的形式,而是在于探求知識或解決問題時(shí)所采用的方法。當(dāng)然,方法只是解決問題的手段,手段如何選擇,還要看所要預(yù)定達(dá)成的目的。因此,有必要再把科學(xué)方法所表現(xiàn)的科學(xué)特征,以及科學(xué)研究者所期望達(dá)到的目的,分別說明如下:

先看科學(xué)的特征。科學(xué)的特征主要是由科學(xué)方法表現(xiàn)出來的,主要表現(xiàn)在解決問題時(shí)所采用的工具、實(shí)施的程序、資料分析以及結(jié)果呈現(xiàn)這四大方面的處理上。就此四大方面中的每一個(gè)的性質(zhì)來看,均具有以下三點(diǎn)特征。

① 客觀性(Objectivity):客觀性是指不因人而變,或隨意而變的科學(xué)特征。在科學(xué)家從事研究以解決問題時(shí),無論在使用測量工具、工作程序、從事資料分析以及呈現(xiàn)研究結(jié)果等的各個(gè)方面,均須按一定的準(zhǔn)則處理,這就是客觀。換言之,客觀即不能憑研究者個(gè)人主觀意見來改變既定準(zhǔn)則,不能按研究者個(gè)人好惡隨意曲解事實(shí)。

② 驗(yàn)證性(Verifiability):驗(yàn)證性是指科學(xué)研究的結(jié)果,或根據(jù)研究所建立的科學(xué)理論,其真實(shí)性如何,是否可以驗(yàn)證。驗(yàn)證性與客觀性具有連帶關(guān)系,必得先有客觀性,而后別人才有可能按其客觀準(zhǔn)則,重復(fù)研究該問題,從而對原始研究予以驗(yàn)證。

③ 系統(tǒng)性(Systematization):系統(tǒng)性是指科學(xué)研究必須遵循一定的程序。所謂一定的程序,有的按時(shí)間為先后,有的按空間為標(biāo)準(zhǔn)。科學(xué)研究上系統(tǒng)性的表現(xiàn),多半體現(xiàn)在數(shù)據(jù)上。數(shù)據(jù)是系統(tǒng)觀察的記錄,是表示客觀性的標(biāo)準(zhǔn),也是用作驗(yàn)證的根據(jù)。

科學(xué)研究的短期目的是解決問題,而長期目的則是發(fā)現(xiàn)事實(shí)真相并探求事實(shí)變化的原理原則,在短期與長期目的之間,科學(xué)的目的又可分為以下四個(gè)層次。

① 陳述(Description):陳述的目的是將研究問題時(shí)所獲知的表面事實(shí),客觀地用口頭或文字描述出來。它只求事實(shí)的真實(shí)性,不涉及問題發(fā)生的原因。例如:一年十二個(gè)月中,某地各月份發(fā)生火災(zāi)的次數(shù)以及各月份火災(zāi)傷亡人數(shù)的統(tǒng)計(jì)資料。這種資料的作用即在于陳述。

② 解釋(Explanation):解釋的目的是將問題發(fā)生的前因后果分析清楚。解釋是以陳述的事實(shí)為根據(jù),進(jìn)一步分析形成問題的原因。當(dāng)然,形成問題的原因未必只是單一的因果關(guān)系,會(huì)有多種因素形成同一結(jié)果的情況,也會(huì)有相關(guān)因素互為因果的情況。以陳述目的中所引的某地各月份的火災(zāi)統(tǒng)計(jì)為例,如資料顯示每年一二月間的火災(zāi)次數(shù)上升,那么研究者在分析原因時(shí),就可能將之解釋為與季節(jié)和民眾的過年習(xí)俗兩大因素有關(guān),一二月是冬天,電熱器的使用率增加,可能是原因之一;一二月適逢農(nóng)歷春節(jié),民眾烹調(diào)時(shí)會(huì)用較多的燃具,并且過節(jié)期間會(huì)燃放煙花爆竹等,這些都是更易引起火災(zāi)的可能原因。

③ 預(yù)測(Prediction):預(yù)測的目的是只根據(jù)現(xiàn)有的資料,去推測將來發(fā)生問題的可能性。對某些因果關(guān)系明確的問題,根據(jù)以往多次問題發(fā)生后所得的因果關(guān)系資料,去預(yù)測未來同類問題發(fā)生的可能,是相當(dāng)可靠的。再以前述各月份火災(zāi)次數(shù)為例,如連續(xù)累積十年資料,將十年間每個(gè)月份的火災(zāi)次數(shù)相加,而后求平均數(shù),即可用以預(yù)測次年各月份的火災(zāi)發(fā)生的可能次數(shù)。

④ 控制(Control):控制的目的是指設(shè)法控制問題發(fā)生的原因,避免問題的發(fā)生或?qū)⒖赡馨l(fā)生問題的嚴(yán)重性減少到最低限度,例如:人類的疾病是無法完全避免的,人類的死亡也是不可避免的。醫(yī)藥科學(xué)的研究,雖無法達(dá)到使人永不生病或長生不老的目的,但也確實(shí)由于了解了某些疾病的病因,而控制了疾病發(fā)生的可能。例如預(yù)防注射,就具有明確的控制功能。

從以上有關(guān)科學(xué)問題概念的討論,不難認(rèn)識到,一種知識是否配稱為科學(xué),與該知識本身的性質(zhì)并無必然關(guān)系;自然界的變化,大如星球運(yùn)轉(zhuǎn),小如花開花落,只要提取知識時(shí)所采用的方法與研究的目的符合于科學(xué),那就是科學(xué);人世間的變化,大如生老病死,小如兒童尿床,只要提取知識時(shí)所采用的方法與研究的目的符合于科學(xué),自然也都是科學(xué)。因此,談科學(xué)問題時(shí),絕不能存有偏見,不能將研究物的基礎(chǔ)科學(xué)(如物理、化學(xué)、生物學(xué)等),看得比應(yīng)用科學(xué)(如數(shù)據(jù)科學(xué)、人文科學(xué)等)的層次髙,否則,勢必將影響后者的發(fā)展。

以物理學(xué)與大數(shù)據(jù)這兩門學(xué)科的研究做比較,物理學(xué)所研究的是物性的變化,大數(shù)據(jù)所研究的是數(shù)據(jù)之間的聯(lián)系及數(shù)據(jù)的變化趨勢。兩者的目的,同樣旨在探求變化的原理,使得以后面對類似的情形時(shí)能事先預(yù)測與控制,使其變化的方向較為有利。不過,物理學(xué)與大數(shù)據(jù)至少有以下幾點(diǎn)不同。

① 物理的特征是外顯的,大數(shù)據(jù)的特征除少部分外顯之外,很多是內(nèi)蘊(yùn)的,根據(jù)個(gè)別物性的外顯特征,去解釋一般的物理特性,相對比較容易,而根據(jù)個(gè)體數(shù)據(jù)的外顯特征,去解釋整個(gè)數(shù)據(jù)體現(xiàn)出的性質(zhì),則較為困難。

② 物理性質(zhì)的變異較少,個(gè)體自身的變化遵循自然規(guī)律,群體之內(nèi)的每個(gè)個(gè)體之間,同質(zhì)性較髙,個(gè)別差異較小。根據(jù)個(gè)體的物理性質(zhì)而推論群體物理性質(zhì)的方法,相對比較容易。數(shù)據(jù)的變異極大,除個(gè)體自身多變之外,個(gè)體之間的差異尤其大。根據(jù)個(gè)體數(shù)據(jù)而推論群體數(shù)據(jù)性質(zhì)的方法,相當(dāng)困難。

③ 對物理特性的測量,較易采用結(jié)構(gòu)化數(shù)據(jù)的量化方式處理,而且容易做到客觀與可驗(yàn)證的標(biāo)準(zhǔn)。一張桌面的長度,今天測量,明天測量,張三測量,李四測量,所得結(jié)果,大致相似,原因是測量工具是客觀的,桌面本身的物性特征,也是外顯而客觀的。對大數(shù)據(jù)的測量就不同,由于存在大量的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)有時(shí)很難進(jìn)行量化處理,并且對這些數(shù)據(jù)采用不同的處理方法會(huì)帶來差異很大的處理結(jié)果,很多時(shí)候?qū)?shù)據(jù)的處理無法做到全面和客觀,因此,對大數(shù)據(jù)的處理就成為了難題。

④ 對測量所得到的資料的處理方式存在差異。凡對物理特征測量所得到的資料,只需按“客觀的客觀化”原則處理即可,所得結(jié)果即可對一般的物理現(xiàn)象進(jìn)行推論解釋,將結(jié)論推廣應(yīng)用以解決同類問題。而對規(guī)模巨大且異構(gòu)的大數(shù)據(jù)資料,則必須按“主觀的客觀化”原則處理,處理方法上要充分考慮到各種因素,尋找到最優(yōu)的處理法,使得結(jié)果盡可能貼近客觀事實(shí)。

基于以上討論,對“大數(shù)據(jù)配稱為科學(xué)嗎?”的問題,我們就可以得到三點(diǎn)認(rèn)識:①一門學(xué)科是否配稱為科學(xué),取決于是否采用科學(xué)方法來從事研究。大數(shù)據(jù)所采用的科學(xué)方法,其周密性并不遜于一般自然科學(xué)。②大數(shù)據(jù)是整個(gè)科學(xué)史中發(fā)展較晚的一門科學(xué)(雖然其中包含的很多內(nèi)容是傳統(tǒng)的科學(xué)內(nèi)容,但以一個(gè)整體形式出現(xiàn)的大數(shù)據(jù),是比較晚的),與其他科學(xué)相比(如物理、化學(xué)、生物學(xué)等),大數(shù)據(jù)尚未到達(dá)成熟階段,這一現(xiàn)象并不表示大數(shù)據(jù)不夠科學(xué),只是因?yàn)榕c研究物性的其他科學(xué)相比,大數(shù)據(jù)有其獨(dú)特的難度和研究深度,因而給大數(shù)據(jù)從業(yè)者們帶來了非常大的挑戰(zhàn)。③從科學(xué)研究的價(jià)值來看,大數(shù)據(jù)所研究的問題,具有普適性,有助于改善人們的生活。

綜上所述,既然大數(shù)據(jù)有資格被稱為科學(xué),就有必要討論一下研究這門科學(xué)的目的。無論是哪一門科學(xué),從它的研究目的看,大致都可分為理論與應(yīng)用兩種目的。大數(shù)據(jù)同樣既包含理論,又是和應(yīng)用緊密相關(guān)的。科學(xué)家們從事純理論的研究者,旨在發(fā)現(xiàn)事物變化的真相,探求原理原則,用以建立系統(tǒng)理論,以供后人據(jù)以解釋、預(yù)測或作為繼續(xù)研究同類問題的基礎(chǔ)。純理論科學(xué)的研究,通常根據(jù)兩個(gè)基本假設(shè):其一,宇宙萬物間事象的變化,各有其自身的秩序與規(guī)律;其二,秩序與規(guī)律的背后,存在著某種原理原則,而從事科學(xué)研究的基本目的,就是要尋找其中的原理原則。

科學(xué)研究的理論性目的,適用于自然科學(xué)對物性的研究,也適用于大數(shù)據(jù)對大規(guī)模異構(gòu)數(shù)據(jù)的研究。大數(shù)據(jù)的理論研究,其目的在于探究數(shù)據(jù)之間的內(nèi)在聯(lián)系,數(shù)據(jù)的變化規(guī)律以及演進(jìn)歷程等。在數(shù)據(jù)情況復(fù)雜的場景下,對數(shù)據(jù)所蘊(yùn)藏的真正價(jià)值,多數(shù)是知其然而不知其所以然的,以“知其然”為基礎(chǔ),進(jìn)而探究數(shù)據(jù)背后“所以然”的原理原則,正是大數(shù)據(jù)理論研究的目的。

舉例而言,大數(shù)據(jù)研究中的一個(gè)重要課題是研究如何讓機(jī)器學(xué)習(xí)人類的語言行為,人類有一套復(fù)雜而又有系統(tǒng)的語言行為,即使在科學(xué)非常進(jìn)步的今天,科學(xué)家仍未揭開人類語言行為形成的神秘原因。因?yàn)閺恼Z言發(fā)展的歷程看,該行為是自出生即開始自動(dòng)學(xué)習(xí)的,并且就知覺行為而言,凡是感覺正常的人,可以不學(xué)就能辨別聲音、顏色、物體、人物、形狀等。但是人的感官作用又與機(jī)械不同,其對于刺激的存在,可以激發(fā)包括語言能力在內(nèi)的一系列強(qiáng)化反映及對信息的關(guān)聯(lián),并且人類可能做到視而不見、聽而不聞,其視覺與聽覺的作用可以異于照相機(jī)和錄音機(jī)。再舉一例,大數(shù)據(jù)科學(xué),尤其是其中的人工智能科學(xué)家一直都希望能讓機(jī)器學(xué)會(huì)人類的求知過程,求知活動(dòng)是人類行為的一大特征,求知行為的背后有兩個(gè)構(gòu)成要件,一個(gè)是求知能力,一個(gè)是求知方法,對這兩個(gè)要件的來源,迄今尚無肯定答案,就人類一生的發(fā)展而言,自出生到老死的變化,有和一般生物的生命周期相同的地方,也有差異之處,其原因是除生物性的客觀決定因素之外,另外還有文化性的主觀決定因素,并且文化因素又會(huì)隨著時(shí)代演進(jìn)而變化,要模擬出類似人類的求知方法和能力,并讓這個(gè)求知過程會(huì)隨著文化而有演進(jìn)變化,是極其復(fù)雜困難的。為了啟發(fā)讀者,本書中所討論的內(nèi)容將會(huì)涉及大數(shù)據(jù)理論的多個(gè)方面。

大數(shù)據(jù)除理論研究外,更重要的在于應(yīng)用的研究。從歷史來看,大數(shù)據(jù)這個(gè)名詞的出現(xiàn),也源自于應(yīng)用。事實(shí)上絕大部分的大數(shù)據(jù)理論知識并不是什么新鮮的理論,例如其中的統(tǒng)計(jì)學(xué)等都是長期發(fā)展的成熟理論,即使是人工智能也是發(fā)展于20世紀(jì)50年代,之所以這些理論現(xiàn)在被冠以大數(shù)據(jù)的名號,是因?yàn)殡S著當(dāng)今計(jì)算能力以及數(shù)據(jù)規(guī)模的增加,有了對大數(shù)據(jù)處理的應(yīng)用需求。

當(dāng)前對大數(shù)據(jù)應(yīng)用的研究目的是:根據(jù)大數(shù)據(jù)理論和工具提供的大數(shù)據(jù)處理方法,建立符合應(yīng)用場景的數(shù)據(jù)處理模型,選定對象、設(shè)計(jì)方法、控制因素等,以進(jìn)行數(shù)據(jù)分析、治理、挖掘、驗(yàn)證性的應(yīng)用,并且從應(yīng)用中得到實(shí)用性的原理原則,然后將其推論到同類情境中去應(yīng)用,以解決實(shí)際問題。

大數(shù)據(jù)技術(shù)所蘊(yùn)含的真正有意義的數(shù)據(jù)處理過程如圖1-4所示:獲得的大量原始數(shù)據(jù)首先需要通過預(yù)處理,例如數(shù)據(jù)的清洗、集成、變換等,才能稱之為信息,到信息這一步,所有數(shù)據(jù)還是相對分散孤立的,此后需要通過體系化處理以及抽象,揭示并清楚地描述出數(shù)據(jù)之間的關(guān)系,由此信息才能轉(zhuǎn)化為經(jīng)驗(yàn),繼而總結(jié)成為具有普遍意義的知識,到這一步,數(shù)據(jù)還尚未發(fā)揮出其價(jià)值,只有將獲得的知識付諸到實(shí)施中,真正幫助決策活動(dòng),才算是體現(xiàn)出了大數(shù)據(jù)的價(jià)值,這種應(yīng)用結(jié)果的優(yōu)劣,進(jìn)一步反饋到前一輪中,形成一個(gè)閉環(huán),最終結(jié)晶成了智慧和文化。因此,知識本身并不是力量,只有將知識付諸于決策行動(dòng),才是力量。

圖1-4 大數(shù)據(jù)意義下的數(shù)據(jù)處理過程

舉例來講,一個(gè)個(gè)的漢字和數(shù)字就可以被視為是數(shù)據(jù),但是可以認(rèn)為:離開了上下文的漢字和數(shù)字是沒有意義的。大數(shù)據(jù)就是對數(shù)據(jù)進(jìn)行分析用于求知的過程,而在求知過程中,“Practice Makes Perfect”這句話并不合適,應(yīng)該說,只有正確的Practice才能Makes Perfect,而研究大數(shù)據(jù)正是要研究怎樣開展正確的Practice。

說到正確的Practice,其實(shí)和大數(shù)據(jù)最為密切的一項(xiàng)Practice技術(shù)非統(tǒng)計(jì)學(xué)莫屬。統(tǒng)計(jì)學(xué)以一定的樣本為分析基礎(chǔ),而大數(shù)據(jù)則可以認(rèn)為是在更大樣本集的情況下的分析手段。一定意義上講,大數(shù)據(jù)應(yīng)用之廣可能使其成為高于統(tǒng)計(jì)學(xué)的一門綜合性科學(xué)。關(guān)于數(shù)據(jù)的學(xué)問,很多都在統(tǒng)計(jì)學(xué)里。在經(jīng)典統(tǒng)計(jì)學(xué)中,對于數(shù)據(jù)性質(zhì)的研究、誤差的分析、數(shù)據(jù)質(zhì)量的判斷、數(shù)據(jù)模型的建立,有著非常豐富的思想、理論和經(jīng)驗(yàn)成果。對于大數(shù)據(jù)及其機(jī)器學(xué)習(xí)來說,統(tǒng)計(jì)學(xué)既是理論基礎(chǔ),又是思想寶庫。但是現(xiàn)實(shí)世界中,機(jī)器學(xué)習(xí)的實(shí)踐者大多出身計(jì)算機(jī)科學(xué),除了本科學(xué)的那一點(diǎn)工科概率論與數(shù)理統(tǒng)計(jì),對于統(tǒng)計(jì)學(xué),基本上是“隨用隨學(xué),夠用為止”,因此統(tǒng)計(jì)學(xué)當(dāng)中大量的思想資源實(shí)際上是被閑置的。事實(shí)上,無論是做人工智能,還是做商業(yè)數(shù)據(jù)分析,如果能夠?qū)y(tǒng)計(jì)學(xué)有系統(tǒng)的理解,那么,對于機(jī)器學(xué)習(xí)的研究和應(yīng)用便會(huì)如虎添翼。

比如說回歸,一般回歸書上大部分篇幅寫的都是近百年前的線性最小二乘回歸,但在最近十幾年中就發(fā)展了大量基于算法的新回歸方法,比如基于決策樹的有隨機(jī)森林、Bagging、Boosting,還有支持向量機(jī)及較早就發(fā)展的神經(jīng)網(wǎng)絡(luò)等,它們都能夠做回歸,往往都比線性最小二乘回歸強(qiáng)大,但實(shí)踐者必須要挑一個(gè)最好的,所以就需要把這些數(shù)據(jù)拿過來做交叉驗(yàn)證,要讓數(shù)據(jù)自己來說話,來確定哪個(gè)模型好。而經(jīng)典統(tǒng)計(jì)上確定模型的優(yōu)劣方法嚴(yán)重依賴于對數(shù)據(jù)的眾多數(shù)學(xué)假定。有計(jì)算機(jī)之前,由數(shù)學(xué)家發(fā)展的經(jīng)典統(tǒng)計(jì)引入了大量的數(shù)學(xué)假定來彌補(bǔ)數(shù)據(jù)信息和處理能力的不足,這就給統(tǒng)計(jì)打上了很深的數(shù)學(xué)烙印,并且導(dǎo)致了很多統(tǒng)計(jì)學(xué)家的模型驅(qū)動(dòng)的思維方式。在計(jì)算技術(shù)飛速發(fā)展以及數(shù)據(jù)膨脹的新時(shí)代,這種模型驅(qū)動(dòng)的思維方式可能就需要改進(jìn)。機(jī)器學(xué)習(xí)是典型的數(shù)據(jù)驅(qū)動(dòng)的思維方式,它從數(shù)據(jù)出發(fā),通過各種計(jì)算方法來理解數(shù)據(jù),并建立適當(dāng)?shù)乃惴P蛠頂M合數(shù)據(jù)并得到結(jié)論,這恰恰反映出機(jī)器學(xué)習(xí)能反過來改造統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)的思維方式就是科學(xué)的思維方式。對于整個(gè)統(tǒng)計(jì)學(xué)界存在的問題,把統(tǒng)計(jì)學(xué)從數(shù)學(xué)假定主導(dǎo)的思維方式改造過來,從模型驅(qū)動(dòng)改變成數(shù)據(jù)驅(qū)動(dòng)或問題驅(qū)動(dòng),就可能獲得解決。

主站蜘蛛池模板: 东莞市| 运城市| 满城县| 牟定县| 定远县| 区。| 武义县| 北流市| 张家川| 阜新市| 平和县| 洪湖市| 泾阳县| 灵武市| 防城港市| 华坪县| 射洪县| 徐闻县| 承德市| 永宁县| 盈江县| 德保县| 长治市| 富宁县| 泌阳县| 阿拉善右旗| 阳江市| 静安区| 永济市| 扶沟县| 综艺| 象州县| 新乐市| 二连浩特市| 西贡区| 迁安市| 绥芬河市| 柞水县| 潜江市| 陆良县| 唐海县|