官术网_书友最值得收藏!

如我們之前看到的,數(shù)據(jù)總量爆炸式地增長,絕大部分的數(shù)據(jù)和運(yùn)算已經(jīng)不能僅憑“紙、筆和聰明的頭腦”完成了,而需要我們動(dòng)用計(jì)算機(jī)的力量了。人可能是最挑食的動(dòng)物,計(jì)算機(jī)也一樣會(huì)挑食,它最喜歡吃的數(shù)據(jù),叫作結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)

在一般意義上,結(jié)構(gòu)化數(shù)據(jù)是指可以用一個(gè)二維表表示的數(shù)據(jù)。每個(gè)數(shù)據(jù)項(xiàng)在里面占據(jù)一行,例如在個(gè)人的特征屬性表中,每個(gè)人占一行,這一行對應(yīng)的特征可能是年齡、性別、職業(yè)類型、出生地點(diǎn)、居住地點(diǎn)……每一個(gè)特征對應(yīng)一列,每一個(gè)特征的取值范圍和存儲(chǔ)所需的數(shù)據(jù)量都有清晰的界定。表2-1是一個(gè)二維表格,列出了我這幾年看過的五本書的基本信息,是典型的結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)背后的邏輯簡單明了,不僅人容易理解,計(jì)算機(jī)也容易理解。一旦數(shù)據(jù)被整理成一張一張的表格,就有非常多成熟的數(shù)據(jù)挖掘和分析軟件,可以自動(dòng)化地從這些表格中獲得洞見。

例如,利用表2-1的數(shù)據(jù),我們可以探索什么因素和累計(jì)的銷量關(guān)系最大:出版社、出版時(shí)間、圖書類型、作者還是價(jià)格?有的時(shí)候,需要把多個(gè)因素組合起來分析,比如經(jīng)濟(jì)學(xué)的書賣得貴一點(diǎn)兒也沒關(guān)系,但是小說最好便宜一些。把多個(gè)因素組合起來分析也并不困難,我們只需要多增加一些新特征列,包含這些組合項(xiàng)就可以了。對于計(jì)算機(jī)而言,這更不是什么困難的事情。有的時(shí)候,通過兩兩甚至三元、四元組合,我們從幾十個(gè)基本特征出發(fā),會(huì)得到數(shù)億個(gè)特征項(xiàng)。雖然計(jì)算量增加了,但是計(jì)算背后的邏輯并沒有變化。基于這些結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析,當(dāng)一本新書出版之后,我們還能夠利用分析的模型對它未來的銷量進(jìn)行預(yù)測。

表2-1 結(jié)構(gòu)化數(shù)據(jù)表示例

在進(jìn)行預(yù)測的時(shí)候,我們也許會(huì)發(fā)現(xiàn),結(jié)果不如我們期待的那么準(zhǔn)確。因?yàn)檫@些簡單的屬性,以及屬性之間的各種組合,還遠(yuǎn)遠(yuǎn)不足以刻畫一本圖書的質(zhì)量和銷量。吸引一個(gè)讀者的因素很多,其中最重要的是書的內(nèi)容,特別是簡介、序言和書的開頭部分,因?yàn)樽x者往往會(huì)閱讀這些內(nèi)容以判斷是否購買。其他的因素還有很多,比如封面和封底的設(shè)計(jì)就很重要——簡潔而有質(zhì)感的封面往往能在第一時(shí)間打動(dòng)我,“豆瓣”上面有價(jià)值的深度評(píng)論也很重要——我當(dāng)然更愿意相信愛書者的評(píng)論而不是出版商的宣傳。然而,這些明顯具有很高價(jià)值的數(shù)據(jù)的引入,會(huì)給原本簡單的“結(jié)構(gòu)化數(shù)據(jù)處理方法”帶來麻煩。

我們當(dāng)然可以在這個(gè)表中新增加三列內(nèi)容:

● 一列叫作封面設(shè)計(jì)

● 一列叫作正文文本

● 一列叫作讀者評(píng)價(jià)

第一列存放一個(gè)圖片文件,第二列存放一個(gè)文本文件,第三列存放若干個(gè)文本文件。但是,由于這三個(gè)新增列的內(nèi)容既不是一個(gè)具體的數(shù)值,也不是在有限的分類中的一個(gè)確定的類別,我們原來的處理辦法一下子“癱瘓”了。除非是通過某種辦法,我們能夠利用圖片文件和文本文件得到對于圖片質(zhì)量、吸引力、與圖書主題的匹配度、全文閱讀流暢感、文筆水平、讀者評(píng)價(jià)傾向性等指標(biāo)定量化的估計(jì),然后把這些估計(jì)得到的特征變成新的列,放入剛才的表格中進(jìn)行關(guān)聯(lián)分析和預(yù)測。

非結(jié)構(gòu)化數(shù)據(jù)

這里提到的“某種方法”,代表了大數(shù)據(jù)時(shí)代一種典型的技術(shù)挑戰(zhàn):如何從形形色色的非結(jié)構(gòu)化數(shù)據(jù)中,提取出有用的、可以量化或分類的信息。提取出來的信息既可以轉(zhuǎn)化為某種結(jié)構(gòu)化大表中的若干特征項(xiàng),也可以直接應(yīng)用,后面我們會(huì)介紹很多這樣的例子。

以前,這類技術(shù)沒有受到像現(xiàn)在這樣的重視,是因?yàn)樵谒械却幚淼臄?shù)據(jù)中,結(jié)構(gòu)化的數(shù)據(jù)占據(jù)了大半江山。但是幾年前,非結(jié)構(gòu)化數(shù)據(jù)的總量超過了結(jié)構(gòu)化數(shù)據(jù),2014年新增數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)在總量上的占比超過了80%,2015年這個(gè)比例超過了85%。與此同時(shí),非結(jié)構(gòu)化數(shù)據(jù)增長的速度是結(jié)構(gòu)化數(shù)據(jù)增速的兩倍以上,這就使得未來非結(jié)構(gòu)化數(shù)據(jù)的占比還要增加。因此,在現(xiàn)在以及可以預(yù)期的將來,如何處理非結(jié)構(gòu)化的數(shù)據(jù)一直會(huì)是大數(shù)據(jù)挖掘分析的中心問題之一。

之所以處理非結(jié)構(gòu)化數(shù)據(jù)難度很大,是因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)形態(tài)各異,沒有辦法找到統(tǒng)一的分析挖掘的方法。除了剛才的例子以外,還存在很多不同種類的非結(jié)構(gòu)化數(shù)據(jù),比如:

● 中國聯(lián)通客戶服務(wù)部收到的語音投訴記錄

● 搜狗上的視頻內(nèi)容以及相關(guān)的搜索和點(diǎn)播記錄

● 新浪微博的關(guān)注關(guān)系網(wǎng)絡(luò)

● 順豐快遞的送貨車輛記錄下來的GPS行駛軌跡

● 科學(xué)網(wǎng)上的博文和評(píng)論記錄

● 大亞灣實(shí)驗(yàn)室的中微子通量數(shù)據(jù)

● 公安部門多點(diǎn)采集的視頻記錄

● 醫(yī)院CT設(shè)備掃描得到的醫(yī)學(xué)影像

……

這些數(shù)據(jù)涵蓋了文本、圖片、音頻、視頻、時(shí)空序列、網(wǎng)絡(luò)等不同形態(tài)。相應(yīng)地,針對不同種類的非結(jié)構(gòu)化數(shù)據(jù),我們所希望通過這些數(shù)據(jù)得到的價(jià)值也各不相同:

● 中國聯(lián)通希望知道用戶投訴的焦點(diǎn)問題是什么,以及如何從聲音中判斷投訴者的情緒。

● 搜狗希望建立一個(gè)跨媒體的個(gè)性化的搜索和推薦系統(tǒng),為用戶提供更貼心的服務(wù)。

● 新浪希望找到不同領(lǐng)域中最有影響力的用戶,并且順便把僵尸粉和廣告粉都剔除掉。

● 順豐想探索有沒有更好的辦法能夠優(yōu)化出車任務(wù)的配置和相應(yīng)的行車路線。

● 科學(xué)網(wǎng)想要了解目前學(xué)術(shù)界關(guān)注的焦點(diǎn)問題是什么。

● 大亞灣實(shí)驗(yàn)室希望深入了解中微子的基本特性,以求解決反物質(zhì)消失之謎。

● 公安部門希望在海量的視頻記錄中查找特定的人物、車輛和器件。

● 醫(yī)院希望得到對于腫瘤情況的準(zhǔn)確診斷

……

不同形態(tài)的數(shù)據(jù),不同的價(jià)值訴求,都要求不同的數(shù)據(jù)挖掘和分析方法。一方面,我們可以很幸運(yùn)地坐下來觀賞各種或驚鴻一現(xiàn)或大巧若拙的算法如雨后春筍一般嘟嘟嘟往外冒;另一方面,我們很遺憾,沒有辦法寫出一本叫作《非結(jié)構(gòu)化數(shù)據(jù)處理的方法論》的教材。盡管計(jì)算機(jī)處理問題背后的邏輯和方法有跡可尋,但我們不能要求一個(gè)能夠從有煙霧遮擋和背景干擾的圖片中識(shí)別主體的高手,快速學(xué)會(huì)如何從博客文本中挖掘博主的情緒、性格和心理特征。盡管從特征中挖掘關(guān)聯(lián)、因果和進(jìn)行預(yù)測的方法具有極大的共通性,但是我個(gè)人預(yù)計(jì),從不同類別的數(shù)據(jù)中提煉出最有價(jià)值的特征,將變成越來越專門化的技術(shù)。就像二十一世紀(jì)不會(huì)有類似于戴維·希爾伯特(David Hilbert)戴維·希爾伯特(David Hilbert),德國著名數(shù)學(xué)家,被稱為“數(shù)學(xué)界的無冕之王”,他是天才中的天才。他于1900年8月8日在巴黎第二屆國際數(shù)學(xué)家大會(huì)上,提出了新世紀(jì)數(shù)學(xué)家應(yīng)當(dāng)努力解決的23個(gè)數(shù)學(xué)問題,被認(rèn)為是20世紀(jì)數(shù)學(xué)的至高點(diǎn),對這些問題的研究有力推動(dòng)了20世紀(jì)數(shù)學(xué)的發(fā)展,在世界上產(chǎn)生了深遠(yuǎn)的影響?!幷咦? class=這樣的數(shù)學(xué)通才一樣,二十一世紀(jì)也不大可能存在精通各種不同形態(tài)數(shù)據(jù)處理方法的技術(shù)通才。

從數(shù)據(jù)自身的發(fā)展變化來看,我們已經(jīng)經(jīng)歷了從“十?dāng)?shù)九表”到“數(shù)態(tài)萬千”的變化,但是絕大多數(shù)企業(yè)在數(shù)據(jù)分析和應(yīng)用方面,還依然停留在“利用傳統(tǒng)分析軟件處理表格數(shù)據(jù)”的階段。

那么,一個(gè)大型企業(yè)或者教育機(jī)構(gòu),怎么培養(yǎng)能夠適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)分析處理需求的員工和學(xué)生呢?是不是因?yàn)椴煌瑪?shù)據(jù)的處理方法各不相同,我們在安排課程和培訓(xùn)的時(shí)候就只能抓狂了呢?是不是我們只能從最具體的需求出發(fā),通過一些實(shí)踐性的課程培養(yǎng)學(xué)生和員工呢?我不同意這種想法,因?yàn)檫^早地讓學(xué)生接觸非常細(xì)節(jié)的問題,容易讓他們迷失。

數(shù)學(xué)教學(xué)體系又出來給我們上課了。盡管不同的數(shù)學(xué)分支已經(jīng)漸行漸遠(yuǎn),我們不會(huì)隨便抓住一個(gè)理論或方法就交給學(xué)生學(xué)習(xí)。如果這樣的話,很可能你會(huì)被導(dǎo)師要求學(xué)習(xí)望月新一的新方法望月新一是日本京都大學(xué)的數(shù)學(xué)教授,疑似比特幣的創(chuàng)始人。他在“遠(yuǎn)阿貝爾幾何”領(lǐng)域中作出過超卓貢獻(xiàn),2012年宣稱自己解決了數(shù)學(xué)史上最富傳奇色彩的未解猜想:ABC猜想。望月新一所使用的數(shù)學(xué)理論和數(shù)學(xué)方法被認(rèn)為是最為艱難和最難以掌握的。,那就恭喜了,十年時(shí)間你都難以入門!反過來,大學(xué)生一進(jìn)來,我們讓他們學(xué)習(xí)《微積分》和《線性代數(shù)》,因?yàn)檫@兩門學(xué)科既最有代表性,也是將來應(yīng)用最廣泛的。進(jìn)一步地,當(dāng)我們要學(xué)習(xí)偏微分方程(在理論物理專業(yè),這個(gè)課程叫作數(shù)學(xué)物理方程)的時(shí)候,我們既不奢望窮盡一切可能的偏微分方程,也不是一下子進(jìn)入一個(gè)個(gè)互不關(guān)聯(lián)的具體方程的求解技巧中,而是在介紹了一些基本的概念、方法和技巧之后,從我們最常遇到的方程類入手進(jìn)行詳細(xì)的分析,例如波動(dòng)方程、熱傳導(dǎo)方程和拉普拉斯方程。

所以說,如果要給出明確的建議,我認(rèn)為應(yīng)該開一門“非結(jié)構(gòu)化數(shù)據(jù)挖掘”的課程,首先簡單回顧和介紹數(shù)據(jù)庫和機(jī)器學(xué)習(xí)的基本概念和方法,然后選擇六種類型的數(shù)據(jù):文本、圖像、語音、網(wǎng)絡(luò)、空間軌跡和時(shí)間序列,這就像是波動(dòng)方程、熱傳導(dǎo)方程和拉普拉斯方程一樣,既是理解普適性理念的最好例子,也是最常遇到也最具應(yīng)用前景的例子。

文本數(shù)據(jù)。我們能夠容易獲取的最豐富的非結(jié)構(gòu)化數(shù)據(jù),也是目前價(jià)值密度(單位數(shù)據(jù)量中能夠挖掘出來的價(jià)值大小)最大的一種非結(jié)構(gòu)化數(shù)據(jù)。通過對文本數(shù)據(jù)的分析,我們能夠了解興趣、評(píng)價(jià)、情緒、關(guān)聯(lián)和趨勢,等等。

圖像和語音。僅次于文本的常見的數(shù)據(jù)形態(tài)。目前,前者的分析方法和應(yīng)用場景都比后者豐富,但是,最近語音的應(yīng)用場景有爆發(fā)性的增長,因此,我認(rèn)為語音分析的技術(shù)在未來會(huì)特別受歡迎。視頻數(shù)據(jù)的分析技術(shù)從某種意義上講是基于圖像的,當(dāng)然,視頻分析中的部分技術(shù),例如對特定對象的動(dòng)態(tài)追蹤、不損失有效內(nèi)容的壓縮和定位視頻的主角,等等,都是僅靠圖像分析不能完成的。由于這些技術(shù)可以看成是圖像分析和若干技術(shù)的組合,所以沒有單獨(dú)強(qiáng)調(diào)視頻分析。

網(wǎng)絡(luò)。需要受到特別重視的一類數(shù)據(jù)結(jié)構(gòu),不僅僅電話通信關(guān)系、社會(huì)交際關(guān)系等可以通過網(wǎng)絡(luò)表達(dá),金融系統(tǒng)的“企業(yè)-企業(yè)”和“企業(yè)-個(gè)人”資金流、電子商務(wù)中的“用戶-商品”瀏覽購買記錄、物流系統(tǒng)的供銷關(guān)系,甚至電視節(jié)目之間的競爭關(guān)系都可以甚至需要通過網(wǎng)絡(luò)表示——可以這么說,哪里有關(guān)系,哪里就有網(wǎng)絡(luò)。網(wǎng)絡(luò)數(shù)據(jù)不僅僅要求例如GraphLabGraphLab是一個(gè)功能強(qiáng)大的機(jī)器學(xué)習(xí)平臺(tái)。它像MapReduce一樣高度抽象,可以高效執(zhí)行與機(jī)器學(xué)習(xí)相關(guān)的、具有稀疏的計(jì)算依賴特性的迭代性算法,并且保證計(jì)算過程中數(shù)據(jù)的高度一致性和高效的并行計(jì)算性能?!幷咦? class=這樣的高效率計(jì)算框架,更需要在圖挖掘算法方面的創(chuàng)新和突破。

空間軌跡。利用車載或者手機(jī)GPS,我們能夠采集到越來越多交通工具和個(gè)人的空間軌跡,這些軌跡的分析,對于從基于位置的個(gè)性化服務(wù)到城市的區(qū)域布局和交通規(guī)劃都有重要的作用。

時(shí)間序列。對時(shí)間序列的分析,從宏觀上講能夠讓我們預(yù)測到未來的發(fā)展趨勢,察覺到可能的失穩(wěn)甚至危機(jī);從微觀上講能夠從用戶的活躍序列中分析用戶的特征,設(shè)計(jì)更好的服務(wù)方案。時(shí)空數(shù)據(jù)有機(jī)融合后的深入挖掘分析會(huì)帶來以前沒有的巨大價(jià)值,而這方面的技術(shù)和人才儲(chǔ)備基本是零就人類行為時(shí)間和空間特性的分析和應(yīng)用,我曾和同事撰寫過60頁的長綜述《人類行為時(shí)空特性的統(tǒng)計(jì)力學(xué)》,2013年發(fā)表在《電子科技大學(xué)學(xué)報(bào)》上,可供參考。

讀者在本書后面無數(shù)的實(shí)際應(yīng)用案例中會(huì)一次又一次看到這些數(shù)據(jù)的巨大價(jià)值。與此同時(shí),我希望能夠引起大家的思考和行動(dòng):怎么在中國培養(yǎng)出一批能夠適應(yīng)數(shù)據(jù)形態(tài)變化的數(shù)據(jù)挖掘和數(shù)據(jù)分析的人才?

主站蜘蛛池模板: 咸阳市| 乌鲁木齐县| 章丘市| 平泉县| 凉山| 左贡县| 上蔡县| 丹阳市| 老河口市| 丽水市| 两当县| 贵德县| 毕节市| 旬阳县| 博兴县| 江门市| 铜川市| 河池市| 东乌珠穆沁旗| 贵德县| 龙泉市| 浮梁县| 肥城市| 阆中市| 日喀则市| 霍林郭勒市| 怀柔区| 房产| 错那县| 奉新县| 巫溪县| 偃师市| 昭通市| 萍乡市| 迁安市| 邳州市| 偃师市| 错那县| 山西省| 建昌县| 台湾省|