官术网_书友最值得收藏!

大數(shù)據(jù)——受想形識(shí),亦復(fù)如是

“大數(shù)據(jù)”這個(gè)新名詞,近來(lái)總在不同的媒體出現(xiàn)。大數(shù)據(jù)的浪潮撲面而來(lái),自然會(huì)伴隨著大量的泡沫。究竟什么是大數(shù)據(jù),好像不同的人有著不同的理解與解讀,但感覺總體形象還是不十分清晰。如果說(shuō)數(shù)據(jù)科學(xué),那就比較容易理解了:是關(guān)于對(duì)象為數(shù)據(jù)的科學(xué),而大數(shù)據(jù)應(yīng)該是數(shù)據(jù)科學(xué)中的問(wèn)題,是數(shù)據(jù)科學(xué)中尚未解決的問(wèn)題,是數(shù)據(jù)科學(xué)中的一個(gè)研究領(lǐng)域。那么,大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)科學(xué)有什么差異呢?大的一個(gè)直接解釋是多。但是我認(rèn)為,數(shù)據(jù)多并不自然就是大數(shù)據(jù),譬如:小孩子背圓周率,不可能全部背出來(lái),因?yàn)檫@是一個(gè)無(wú)限小數(shù),也就是說(shuō)數(shù)據(jù)無(wú)限多。但是數(shù)學(xué)早已經(jīng)給出了多種不同的計(jì)算方法,你可以想要精確到多少位就精確到多少位,同時(shí)也可以證明,不可能在有限的時(shí)間內(nèi)背完圓周率。我認(rèn)為,凡是數(shù)學(xué)已經(jīng)給出方法計(jì)算的都不能算作大數(shù)據(jù),或者說(shuō)用現(xiàn)有的數(shù)學(xué)方法處理的數(shù)據(jù)都不能算作大數(shù)據(jù)。當(dāng)然,可以發(fā)展并行計(jì)算、云計(jì)算等新的計(jì)算方法來(lái)提高其運(yùn)算速度。

數(shù)據(jù)科學(xué)的第一個(gè)基本問(wèn)題是排隊(duì),數(shù)學(xué)上叫排序。你可以像幼兒園老師一樣,一個(gè)一個(gè)地拉來(lái)排好,這叫串行算法。到了小學(xué)高年級(jí),如果全體同年級(jí)孩子重新排隊(duì),可以在各班排隊(duì)的基礎(chǔ)上,讓各班從高到矮排好,然后列隊(duì)走來(lái),校長(zhǎng)只要比較各列第一個(gè)的高矮逐個(gè)放行,這叫并行算法。如果大量的中學(xué)生以上的成年人要排隊(duì),那么你可以采用云計(jì)算的辦法,讓他們自己判斷可能在什么位置附近,然后自覺地與邊上的人比較,交換調(diào)整。

那么什么是大數(shù)據(jù)呢?我們還是從什么是應(yīng)用數(shù)學(xué),或者什么是數(shù)據(jù)講起。數(shù)據(jù)科學(xué)是應(yīng)用數(shù)學(xué)的核心組成部分。應(yīng)用問(wèn)題要提高到科學(xué)的層面,或者說(shuō)可以思考分析的層面,要通過(guò)一個(gè)交流的界面或接口,而交流的媒介一定就是數(shù)據(jù)。人與外界的交流也是如此。我們現(xiàn)在與外界的交流越來(lái)越依賴于各種電子產(chǎn)品,幾乎任何信息都可以轉(zhuǎn)化為數(shù)字或數(shù)據(jù)進(jìn)行。籠統(tǒng)地講,數(shù)據(jù)科學(xué)涉及:數(shù)據(jù)采集、描述、表示、分析、重構(gòu)、理解、演繹、挖掘等部分。而大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)科學(xué)的差異,我認(rèn)為主要在于:數(shù)據(jù)的異源、異構(gòu),不能直接嵌入經(jīng)典的數(shù)學(xué)空間,含有深層的隱藏信息,以及與已經(jīng)獲得的經(jīng)驗(yàn)數(shù)據(jù)的聯(lián)系、融合。這是大數(shù)據(jù)研究的挑戰(zhàn)性所在。

為什么要研究大數(shù)據(jù),當(dāng)然是為了提高我們對(duì)現(xiàn)實(shí)世界的認(rèn)識(shí),使之達(dá)到大智慧。佛學(xué)中稱為“般若波羅蜜多”,所以在這里引用“般若波羅蜜多”心經(jīng):“受想形識(shí),亦復(fù)如是”。這里我改動(dòng)了一個(gè)字,將“行”改成了“形”。

受——就是感受,就是數(shù)據(jù)采集;

想——就是數(shù)據(jù)分析;

形——是形成概念,是數(shù)據(jù)重構(gòu),形成人腦中的世界;

識(shí)——是對(duì)數(shù)據(jù)解讀,進(jìn)而成為對(duì)現(xiàn)實(shí)世界的理解,并可以為己所用。

下面準(zhǔn)備就這4個(gè)方面談?wù)勎覍?duì)大數(shù)據(jù)的理解。

受——數(shù)據(jù)采集,人是怎么感受世界的?還是要引用心經(jīng):“眼耳鼻舌身意”。眼睛看到的東西我們可以用數(shù)字照片記錄下來(lái),耳朵聽到的可以用數(shù)字錄音,視網(wǎng)膜、耳蝸中的絨毛及聽骨記錄的,如同計(jì)算機(jī)中視頻、音頻文件,也是有限的離散數(shù)據(jù)。電子鼻、糖度儀在一定程度上模擬了鼻舌。“身”是觸覺,也有不少儀器模擬它,人們制造了大量的儀器,如紅外遙感、X波雷達(dá)、CT等來(lái)模擬而且擴(kuò)充了人類采集數(shù)據(jù)的能力。而“意”的解釋稍微困難一些,那是第六感,用數(shù)學(xué)語(yǔ)言說(shuō)就是通過(guò)異構(gòu)數(shù)據(jù)的協(xié)同計(jì)算獲得的信息,蝙蝠可以通過(guò)聽聲音來(lái)辨別前方的物體,而一個(gè)人如果能夠聽音辨物,就會(huì)被認(rèn)為具有特異功能。

圖1

再問(wèn)一個(gè)問(wèn)題:人可以從鼓聲聽出鼓面的形狀嗎?純粹數(shù)學(xué)家找到了兩種構(gòu)造復(fù)雜的鼓面(見圖1),證明了它們發(fā)出相同的聲音。而對(duì)于應(yīng)用數(shù)學(xué)家來(lái)說(shuō),純粹數(shù)學(xué)家的這個(gè)結(jié)論(人們無(wú)法區(qū)分這兩種不同鼓面形狀發(fā)出的聲音)事實(shí)上告訴我們,如果只有圓、橢圓、三角、四邊、六邊、八邊等簡(jiǎn)單鼓面形狀的鼓,人們是可以通過(guò)訓(xùn)練(數(shù)學(xué)上是學(xué)習(xí)算法),從鼓聲中區(qū)分鼓面形狀的。如果你的上司發(fā)火時(shí)會(huì)伴隨著臉部的肌肉抽搐,當(dāng)你半夜從睡夢(mèng)中被一陣電話鈴聲叫醒,聽到他在電話里對(duì)你咆哮,雖然你沒(méi)有看見他,你的腦海中一定會(huì)出現(xiàn)那張變形的臉,或者說(shuō)你甚至可以聽出表情。這好像是超能力,我更愿意把它叫做隱性能力。X波雷達(dá)、紅外遙感也是如此。所以,數(shù)據(jù)科學(xué)首先要在數(shù)據(jù)采集上將看不見、聽不見的數(shù)據(jù)轉(zhuǎn)換為看得見、聽得見的數(shù)據(jù),將不是用通常的數(shù)據(jù)采集手段采集的數(shù)據(jù)轉(zhuǎn)換為通常的數(shù)據(jù)表達(dá)形式,以擴(kuò)充、提高我們采集數(shù)據(jù)的能力,特別是拓展隱性能力。反過(guò)來(lái),心理學(xué)家也做過(guò)實(shí)驗(yàn):將一個(gè)每秒24幀圖像的影片,每24幅后加一張圖片,可以是血腥的,甚至只是寫上一句令人沮喪的話,然后以每秒25幀的速度播放。播放時(shí)人們一般不會(huì)發(fā)覺有什么異樣,但當(dāng)看完整部電影之后,人們就會(huì)感覺非常地不舒服。這也叫暗示,某種信息在不知不覺中傳到并且記錄在你的腦中。近年來(lái),有不少科幻影片就通過(guò)手機(jī)等植入廣告式地發(fā)送隱藏信息以控制人們的思想。甚至有傳言,美軍在伊拉克戰(zhàn)場(chǎng)就已經(jīng)采用這種戰(zhàn)術(shù),在戰(zhàn)場(chǎng)上用超聲波播放伊斯蘭教禱告的錄音以瓦解對(duì)方的斗志。開發(fā)利用數(shù)據(jù)采集與播放發(fā)送的隱能力,是數(shù)據(jù)科學(xué)特別是大數(shù)據(jù)的重要領(lǐng)域。

得到數(shù)據(jù)以后還需要記錄。對(duì)于多元、多源、異構(gòu)、海量數(shù)據(jù)的記錄是數(shù)據(jù)科學(xué)在數(shù)據(jù)采集方面的第二個(gè)問(wèn)題。人腦記錄數(shù)據(jù)利用了腦細(xì)胞,并同時(shí)激活了它們之間聯(lián)系的神經(jīng),也就是說(shuō),同時(shí)記錄了數(shù)據(jù)本身和這些數(shù)據(jù)之間的關(guān)系,甚至是跨結(jié)構(gòu)的數(shù)據(jù)間的聯(lián)系。跨結(jié)構(gòu)數(shù)據(jù)關(guān)系的記錄研究是數(shù)據(jù)結(jié)構(gòu)研究中還幾乎少有涉及的領(lǐng)域。在我們?yōu)g覽網(wǎng)頁(yè)時(shí),下面“瀏覽過(guò)該網(wǎng)頁(yè)的人還瀏覽了猜你也喜歡的網(wǎng)頁(yè)鏈接”信息,給我們帶來(lái)許多方便(同時(shí)一定程度上也控制了人們的思想,植入性地引導(dǎo)人們?nèi)タ淳W(wǎng)站希望你去看的信息)。網(wǎng)站在記錄網(wǎng)頁(yè)及瀏覽網(wǎng)頁(yè)的人員同時(shí)記錄了(由瀏覽者自己,可以說(shuō)是用云計(jì)算的方法得到的)網(wǎng)頁(yè)間的聯(lián)系。網(wǎng)絡(luò)上各計(jì)算機(jī)節(jié)點(diǎn)的描述,基礎(chǔ)的是每個(gè)計(jì)算機(jī)上的文件(文本、音頻、視頻,以及驅(qū)動(dòng)這些文件的軟件程序)本地聯(lián)系或連接處理,完成本地計(jì)算機(jī)的工作功能。進(jìn)一步地還有計(jì)算機(jī)間的連接與問(wèn)題處理,網(wǎng)絡(luò)間聯(lián)系可以處理遠(yuǎn)程計(jì)算,遠(yuǎn)程云檢查病毒、殺病毒,甚至是多架無(wú)人機(jī)遠(yuǎn)程精確打擊。博客是通過(guò)點(diǎn)擊率提升博主地位的。大家都知道科技文章中有個(gè)影響因子,即有多少文章在引用你的文章,在ISI網(wǎng)頁(yè)上不僅可以查到引用情況,還可以查到二次引用,即有多少文章在引用曾經(jīng)引用過(guò)你的文章。這個(gè)結(jié)果不僅反映了你的文章的引用情況,還確切地反映了被你的工作影響的研究人員的地位與影響力,從而更加全面地反映你的文章的影響力。這些都可以被認(rèn)為是在做云計(jì)算,在不知不覺中把有意義的作品推到了你的面前,節(jié)省了你自己搜尋的時(shí)間。

圖2

想——數(shù)據(jù)分析。首先是去噪,譬如現(xiàn)在好的相機(jī)都有防抖功能,這是利用數(shù)學(xué)方法獲得去除噪音的圖片;再一個(gè)是濾波或者說(shuō)信號(hào)分離。在寧?kù)o的山村,早上醒來(lái),聽到幾撥雞叫,你會(huì)記得有幾只雞,它們?cè)谀膸讉€(gè)方位。這里你做了現(xiàn)在稱為機(jī)器學(xué)習(xí)或?qū)W習(xí)理論的事情:識(shí)別與分類。你把一些雞叫聲歸為一類,識(shí)別出這是同一只雞的叫聲,同時(shí)分辨出有幾只雞。看了一個(gè)網(wǎng)頁(yè)時(shí),你會(huì)記住一些關(guān)鍵詞,或者說(shuō)提取了特征統(tǒng)計(jì)量。在記錄圖片時(shí),記住的不會(huì)是圖片每一個(gè)點(diǎn)的顏色(BMP文件),而主要是一種印象,或者說(shuō)是印象派的圖像。我們知道印象派有兩種:一種是高更的,是導(dǎo)數(shù)、圖像邊緣突現(xiàn);一種是莫奈的,模糊化的,可能是JPG文件(數(shù)學(xué)中稱為小波框架的圖像,見圖2)。這也就是壓縮感知。把數(shù)據(jù)進(jìn)行降維、壓縮,記住我們想記住的東西,用盡量少的腦細(xì)胞記住一件事情。數(shù)據(jù)處理的一個(gè)重要組成部分是數(shù)據(jù)的降維,譬如人臉識(shí)別。如果我們可以簡(jiǎn)單刻畫(用簡(jiǎn)單函數(shù)表示)這個(gè)人的像片所在的那個(gè)低維流形,那么我們就很容易地識(shí)別出那個(gè)人。降維的主要數(shù)學(xué)方法是主成分分析,也就是特征提取。統(tǒng)計(jì)中的均值方差都是數(shù)據(jù)的某種特征。可以說(shuō)任何科學(xué)及數(shù)學(xué)問(wèn)題的處理無(wú)不遵循這個(gè)原則,即找出主要矛盾與次要矛盾的關(guān)系。譬如,勾股定理(又叫畢達(dá)哥拉斯定理)的原意是劃出方塊的土地。地球是圓的,根本沒(méi)有方塊的意義。但我們的先賢把它看成是在一個(gè)平面上的問(wèn)題,得到了這個(gè)漂亮的結(jié)果,并且廣泛地進(jìn)行了應(yīng)用。現(xiàn)在看來(lái)在地球表面上用勾股定理畫方塊,顯然是錯(cuò)的。歐幾里得空間是數(shù)學(xué)的基礎(chǔ),但也經(jīng)常限制了人們的思想自由。而愛因斯坦(Albert Einstein,1879—1955)發(fā)現(xiàn)世界上根本就沒(méi)有直線或者平面。光線走的并不是直線。這里不是單純的數(shù)學(xué)問(wèn)題,而是一個(gè)哲學(xué)問(wèn)題——時(shí)空的關(guān)系,我們是用地球繞太陽(yáng)轉(zhuǎn)一圈來(lái)定義“年”的,或者更加精確地用“光”走的路程來(lái)定義“秒”的,同時(shí)在應(yīng)用中又用時(shí)間來(lái)定義路程——光年。JPG還把一個(gè)大概印象放在高層,而將細(xì)節(jié)放在底層,并逐漸細(xì)化地顯示。心理學(xué)家也做過(guò)實(shí)驗(yàn),讓許多人快速看一些圖片,然后讓他描述所看到的內(nèi)容,這就是印象。研究發(fā)現(xiàn)人的印象也可以分為兩類:高更型可以歸于邏輯思維型——將圖像分片,每片用一種顏色表示;莫奈型可以歸于形象思維型——是細(xì)節(jié)圖像模糊化的結(jié)果。當(dāng)然,更多人的印象介于這兩者之間,融合了這兩個(gè)壓縮感知的方法。

數(shù)據(jù)從數(shù)學(xué)上來(lái)說(shuō)主要表現(xiàn)為點(diǎn)或高維空間的點(diǎn),函數(shù)離散化以后還是點(diǎn),算子離散化以后是矩陣或張量,仍然是高維空間的點(diǎn)。通俗地講,數(shù)據(jù)處理就是處理高維空間的點(diǎn)之間的關(guān)系。而點(diǎn)之間的關(guān)系是由距離(注意:通常不是歐幾里得的距離)或連接圖、連接路徑組成。這在數(shù)學(xué)上用轉(zhuǎn)移矩陣表示,或者說(shuō)這是復(fù)雜網(wǎng)絡(luò)的動(dòng)力學(xué)問(wèn)題。要找到點(diǎn)之間的關(guān)系,通常首先要給每個(gè)點(diǎn)或點(diǎn)簇、點(diǎn)云一個(gè)地名,這個(gè)地名通常是模糊的,它由這個(gè)抽象的點(diǎn)或點(diǎn)簇所表示的具體對(duì)象的一些關(guān)鍵詞組成,這時(shí)學(xué)習(xí)理論的兩個(gè)根本問(wèn)題又出現(xiàn)了:一個(gè)是模式識(shí)別,就是尋找關(guān)鍵詞、特征;一個(gè)是分類或者聚類,把相近或相異的關(guān)鍵詞用數(shù)學(xué)表示出來(lái)。接下來(lái)是一個(gè)在數(shù)學(xué)上還只是知道皮毛的問(wèn)題,就是用數(shù)學(xué)來(lái)研究詞典、語(yǔ)義學(xué)、句法分析、人物關(guān)系、段落大意及文章主題。

形——數(shù)據(jù)重構(gòu)。通常認(rèn)為數(shù)據(jù)有三元的結(jié)構(gòu)屬性:真實(shí)的存在、記錄的數(shù)據(jù)、人類的理解。人腦形成的對(duì)該事物的理解與采集的數(shù)據(jù)是有差別的,而采集的數(shù)據(jù)與該事物的真實(shí)存在也總是有差別的。不可能采集事物的全部數(shù)據(jù),人腦對(duì)真實(shí)事物的理解會(huì)比采集數(shù)據(jù)更全面。記錄的數(shù)據(jù)通常是有容余的,同時(shí)又是不全面的。譬如,我們有一個(gè)人在不同環(huán)境下的大量照片,這些照片中有些部分是重復(fù)的,通常臉部最多,但又不完全重復(fù),因?yàn)榻嵌瓤赡懿煌庹湛赡懿煌砬榭赡懿煌N覀儼选癛edandency”翻譯成“容余”而不是“冗余”,是想說(shuō)明這些信息是有重復(fù),但它對(duì)信息重構(gòu)不是完全沒(méi)有用的,是一種“灰色信息”。當(dāng)從真實(shí)存在的事件中采集數(shù)據(jù)以后,人腦會(huì)對(duì)其復(fù)原或重構(gòu),在人腦中形成對(duì)該事件的形象或理解——腦海中的世界。譬如,手機(jī)基站每隔幾秒鐘就要采集你的手機(jī)的位置,這樣他就可以給出你的行進(jìn)路線圖,這在數(shù)學(xué)上叫做插值與逼近。如果是多人的問(wèn)題,那么這是一個(gè)隨機(jī)圖的動(dòng)力系統(tǒng)。如果你從一個(gè)手機(jī)基站走到另一個(gè)手機(jī)基站,那么這里有一個(gè)關(guān)系矩陣或轉(zhuǎn)移矩陣。人們總是將獲得的信息或數(shù)據(jù)去噪、解構(gòu)、分類后重構(gòu)、安裝到自己已有的知識(shí)結(jié)構(gòu)中。譬如,你閱讀了本文,如果可以馬上背出全文,那么你一定患有自閉癥。聰敏的你會(huì)把本文的觀點(diǎn)進(jìn)行分解、提煉,分為有用的和沒(méi)用的、你已經(jīng)知道的和新的、對(duì)的且重要的、錯(cuò)的但也還是重要的、無(wú)所謂的,等等。你會(huì)忘記沒(méi)用的、舊的、無(wú)所謂的,而將有用的、新的、重要的融入你的思想結(jié)構(gòu),激活有關(guān)的神經(jīng)與腦細(xì)胞。形象地說(shuō),你是將本文剪下一些合適的碎片,作為補(bǔ)丁,修補(bǔ)你的思想結(jié)構(gòu)。因?yàn)楂@得這些觀點(diǎn)還可能有其他渠道和來(lái)源,你會(huì)在對(duì)這些觀點(diǎn)進(jìn)行分析,特別是在批判性分析的基礎(chǔ)上,綜合形成自己的觀點(diǎn)。對(duì)于信息有多個(gè)來(lái)源、你該信誰(shuí)的問(wèn)題,就猶如一個(gè)專家系統(tǒng)。譬如,許多軟件可以自動(dòng)進(jìn)行天氣預(yù)報(bào),但結(jié)果一般不完全相同,醫(yī)生看病也是如此。最為簡(jiǎn)單的是加權(quán)平均,比較地相信權(quán)威。但你會(huì)得出更為聰敏的結(jié)論,知道在什么問(wèn)題上應(yīng)該更相信誰(shuí),并且一定會(huì)以非常大的權(quán)保留你自己固有的思想。用數(shù)學(xué)的語(yǔ)言說(shuō),你會(huì)將問(wèn)題升維,在一個(gè)更加高的思維層面上考慮問(wèn)題。“克萊因瓶”不能在三維空間用函數(shù)描述,但在四維空間可以用數(shù)學(xué)描述。復(fù)數(shù)、四元素正是用來(lái)處理這樣的問(wèn)題。所以,為了更好地處理數(shù)據(jù),升維是數(shù)據(jù)處理的一個(gè)重要方法,在一個(gè)更加高的思維層面上考慮問(wèn)題,以便更好地看到主要矛盾與主要矛盾的關(guān)系。而這就涉及異構(gòu)數(shù)據(jù)的融合問(wèn)題。還是要請(qǐng)讀者注意,安裝一般不是歐幾里得的張量積,數(shù)學(xué)叫做直接和。上面講過(guò)勾股定理,這實(shí)際上是偉大的數(shù)學(xué)家畢達(dá)哥拉斯、歐幾里得的思想局限。再問(wèn)一個(gè)基本的哲學(xué)問(wèn)題:宇宙是有限的還是無(wú)限的?這個(gè)問(wèn)題要放到四維以上的空間才能更好地進(jìn)行描述。人在三維空間內(nèi),總認(rèn)為我們所處的空間是平直的。當(dāng)時(shí),畢達(dá)哥拉斯(Pythogoras,約前580—約前500)已經(jīng)生活在三維空間了,但他還是把地球球面看成平面,更何況一只只能生活在地球表面的兩維空間小蟲。可以設(shè)想我們生活的空間在更高維的空間且不是平直的,稱為流形。那么是怎么彎曲的呢?從三維看兩維,彎曲分成橢圓、拋物、雙曲等類型。如果是橢圓形的,那么可能是有限的,否則可能是無(wú)限的。還有個(gè)問(wèn)題:什么叫宇宙?如果把宇宙定義為可以到達(dá)并且回來(lái)的所有位置,龐加萊猜想說(shuō)的就是所有的閉曲線可以收縮為一個(gè)點(diǎn)的流形同胚于球面的一部分,也就是沒(méi)有虧格,或者形象地說(shuō)沒(méi)有洞。如果有虧格,那就是環(huán)面或者是多個(gè)黏在一起的環(huán)面。在三維空間中我們看到過(guò)平面嗎?平面只是想象出來(lái)的東西。我們看到的三維空間中的曲面都是某個(gè)有限實(shí)體的表面或者說(shuō)邊界。它們都同胚于多個(gè)黏在一起的環(huán)面。所以說(shuō),宇宙更有可能是一些高維空間的三維環(huán)體連接在一起的。最近人們用數(shù)學(xué)討論辦公室的人際關(guān)系,如《紅樓夢(mèng)》、《悲慘世界》中的人物關(guān)系,發(fā)現(xiàn)他們也可以嵌入或黏貼到一個(gè)或幾個(gè)環(huán)面上。這就是龐加萊猜想的魅力。幾乎任何的數(shù)據(jù)關(guān)系都可以黏貼(嵌入)多個(gè)黏結(jié)在一起的環(huán)面上。環(huán)鏈好像是數(shù)據(jù)關(guān)系的普遍形式。

識(shí)——數(shù)據(jù)挖掘、預(yù)測(cè)、利用。數(shù)據(jù)都已經(jīng)成為海量數(shù)據(jù)了,但總還是有限的,也就是說(shuō),對(duì)于真實(shí)世界的描述我們可以獲得的數(shù)據(jù)還是太少太少。我們還在瞎子摸象階段。經(jīng)典的數(shù)據(jù)科學(xué)回答說(shuō)大象像簸箕。因?yàn)閱?wèn)的問(wèn)題是大象像什么,而采集到的數(shù)據(jù)只有大象的耳朵。作為大數(shù)據(jù),首先應(yīng)該通過(guò)其他途徑的經(jīng)驗(yàn)數(shù)據(jù)綜合認(rèn)識(shí)到大象的耳朵像簸箕,然后還可以綜合采集其他部位的數(shù)據(jù)的結(jié)論,形成對(duì)整個(gè)大象的描述。在數(shù)據(jù)重構(gòu)中,人們應(yīng)該得到比采集數(shù)據(jù)更多的東西,根據(jù)經(jīng)驗(yàn)恢復(fù)部分的缺省數(shù)據(jù)。譬如,對(duì)于大樓,我們得到的是物理真實(shí)存在的一些不完整的信息,在人腦中形成對(duì)大樓的了解。物理存在的內(nèi)容是完整的事實(shí),可以看到或了解的只是其中很少的一部分。譬如,只是一張斜角包含大半個(gè)正面的照片,但由對(duì)稱性等經(jīng)驗(yàn),在人腦中形成的影像會(huì)更全面。如果我們有高樓的下面幾層的照片,其中窗戶是清晰的,同時(shí)又有該高層建筑的遠(yuǎn)距離照片,窗戶不怎么清晰,那么在人腦中形成的將是一張窗戶清晰的整體照片。人腦有非常強(qiáng)的數(shù)據(jù)解構(gòu)、重建及根據(jù)經(jīng)驗(yàn)再融合重構(gòu)的能力。大數(shù)據(jù)就是希望利用數(shù)學(xué)通過(guò)計(jì)算機(jī)來(lái)實(shí)現(xiàn)這個(gè)能力,并且希望比人類做得更好、更快,特別是大數(shù)據(jù)分析中,希望完成利用人力幾乎不可能完成的任務(wù)。看到半張臉、半幢大樓,那么根據(jù)對(duì)稱性,我們對(duì)整體會(huì)有一個(gè)更加全面的形象概念。當(dāng)你下一次從另外的角度看見他時(shí),你還會(huì)認(rèn)識(shí)他。那么半句話呢?前幾天我在某城市就看到一個(gè)被樹木遮住一半的城市公益廣告牌上寫有“花一樣的……”。因?yàn)槭鞘懈鎻V告,第一反應(yīng)是“花一樣的城市”,提醒保持環(huán)境衛(wèi)生之類;后來(lái)看見邊上是一所小學(xué),我想到了“花一樣的年華”,提醒過(guò)往行人要遵守交通規(guī)則;當(dāng)然腦海中還出現(xiàn)了“花一樣的笑容”、“花一樣的美麗”等句子。走近一看是“花一樣的錢,辦更大的事”。這是經(jīng)驗(yàn)數(shù)據(jù)在起作用,可見我的經(jīng)驗(yàn)是比較浪漫的,局限在花朵的花,與現(xiàn)實(shí)有一定的距離。當(dāng)然,可以用數(shù)學(xué)的方法處理這樣的問(wèn)題,譬如在百度上鍵入“花一樣的”,然后就可以得到非常多的信息,聚類分類后統(tǒng)計(jì)一下,就可以得到某種結(jié)果出現(xiàn)的概率。但是不要忽略這是市府的公益廣告,邊上有學(xué)校等這些只有在具體事件發(fā)生地才會(huì)出現(xiàn)的非直接信息或可采集到的數(shù)據(jù)。這些信息通常是有用的,并且可能是起決定性作用的。而在上面的例子中,也可能是誤導(dǎo)信息。大數(shù)據(jù)就是要處理并合理利用這樣的信息。現(xiàn)在許多案件的破獲都利用攝像頭的視頻信息。譬如波士頓爆炸案,是由一系列的模糊信息導(dǎo)致的越來(lái)越清晰的結(jié)論:炸彈包裹是黑色手提包,有帶黑色棒球帽者提著黑色手提包,帶黑色棒球帽者經(jīng)常與帶白色棒球帽者在一起。帶白色棒球帽者的臉部清晰照片經(jīng)警察局比對(duì)后,發(fā)現(xiàn)該人有案底記錄。但要處理這些照片需要很多工作量,這些工作有時(shí)只靠人力還不行。每個(gè)人只能處理一部分照片,而更為關(guān)鍵的是將各照片中的模糊結(jié)論或模糊概念聯(lián)系起來(lái)是模糊的還是更為清晰的結(jié)論。首先應(yīng)該整理這些照片得到一些關(guān)鍵詞,最好在照片的拍攝過(guò)程中照相機(jī)就已經(jīng)進(jìn)行了自動(dòng)處理(離線處理、預(yù)處理)。譬如現(xiàn)在你用iPad拍照,照片上不僅有你拍照的時(shí)間,還有你拍照時(shí)GPS定位的坐標(biāo),如將拍照時(shí)人臉?biāo)褜さ男畔⒁布舆M(jìn)去,記下有幾個(gè)人等,并將這些進(jìn)一步的信息放在照片附帶的說(shuō)明文件中。關(guān)鍵詞或者說(shuō)標(biāo)簽最好是標(biāo)準(zhǔn)化的,當(dāng)然越標(biāo)準(zhǔn)化越會(huì)流失一些可能有用的模糊信息。由于視角的不同與關(guān)心問(wèn)題的角度不同,每個(gè)人選擇的關(guān)鍵詞或者標(biāo)簽也是不同的,是個(gè)性化的,這樣又導(dǎo)致了個(gè)性化關(guān)鍵詞的語(yǔ)義模糊匹配問(wèn)題。在數(shù)學(xué)上,對(duì)個(gè)體智能或底層數(shù)據(jù)處理的研究已經(jīng)達(dá)到很高的階段,并且可以說(shuō)已經(jīng)看到了基本解決此類問(wèn)題的曙光。但對(duì)群體智能,如何融合多個(gè)個(gè)體智能的高層數(shù)據(jù)結(jié)構(gòu)的處理、描述、傳輸,以及動(dòng)力系統(tǒng)行為的研究還處在一個(gè)剛剛起步和黑暗的階段,也就是說(shuō)大數(shù)據(jù)處理的高層云模糊設(shè)計(jì)的數(shù)學(xué)描述,是大數(shù)據(jù)處理是否可以有所斬獲的關(guān)鍵。具體就是如何整理非結(jié)構(gòu)化的數(shù)據(jù),使之成為擬結(jié)構(gòu)化的、半結(jié)構(gòu)化的或者結(jié)構(gòu)化的數(shù)據(jù),同時(shí)又不丟失可能有用的信息。

對(duì)于數(shù)據(jù)結(jié)構(gòu),最后我特別想對(duì)框架說(shuō)幾句。大家都知道基或坐標(biāo)。點(diǎn)、函數(shù)都是由基的線性組合來(lái)表示的。基表示有個(gè)缺點(diǎn),就是當(dāng)某個(gè)數(shù)據(jù)(坐標(biāo)、表示系數(shù))損壞時(shí)是沒(méi)有辦法恢復(fù)的。而在緊框架下,數(shù)據(jù)有自我修復(fù)功能。這個(gè)革命性的表示方法,在圖像處理中已經(jīng)得到了大量的應(yīng)用。

總的來(lái)說(shuō),大數(shù)據(jù)研究是用數(shù)學(xué)或者數(shù)據(jù)來(lái)描述、理解現(xiàn)實(shí)世界,而學(xué)習(xí)是完成“受想形識(shí)”,達(dá)到“般若波羅蜜多”的唯一途徑。

復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院 吳宗敏

(本文摘自《科學(xué)》2014年第66卷第1期,《新華文摘》2014年總549期第9期,此處文字略有改動(dòng)。)

主站蜘蛛池模板: 东平县| 峡江县| 石首市| 玛纳斯县| 扎囊县| 侯马市| 颍上县| 保亭| 尚义县| 淮南市| 蕲春县| 昭平县| 文山县| 海淀区| 漠河县| 江都市| 上高县| 鸡西市| 蚌埠市| 荔浦县| 英山县| 海丰县| 华容县| 和顺县| 五原县| 盐津县| 长沙市| 阿拉善右旗| 揭东县| 新巴尔虎左旗| 青田县| 任丘市| 鹤庆县| 临澧县| 墨玉县| 桓台县| 南宫市| 乐山市| 巫溪县| 天镇县| 乐安县|