- 牛津通識讀本:大數據(中文版)
- (美國)道恩·E.霍爾姆斯
- 2861字
- 2021-01-29 19:48:55
序言
王崇駿
四方上下曰宇,往來古今曰宙!
從137億年前宇宙大爆炸,到46億年前地球誕生,再到38億年前地球上開始有生命,直至約6000年前文字的出現開啟了人類文明,這是一個多么漫長的過程!與其他物種大多通過遺傳進化不同,人類在進化過程中發(fā)展和演化出了一種非遺傳性繼承:通過獨一無二且日益發(fā)達的文化媒介(語言、文字以及有意識地利用外在物和工具的特質)將知識留給后代。這種文化傳承使得人類可以快速進化,并最終成為這個星球的“統治者”。
在漫長的人類文明發(fā)展史中,從源自動物性的“數覺”到為了“征服”自然界,人類開始對“數”產生了需求,并且隨著這種需求的逐步膨脹,一系列的工具、算法、設備被不斷發(fā)明和創(chuàng)造,比如早期的計時工具、計數工具,以及諸如算籌、算盤等算術工具。隨著計算理論的豐富,以及機械工藝的進步,人們開始思考如何用更為精巧的設備進行計算,如納皮爾籌、機械尺、機械計算機等;而圖靈機理論的發(fā)明、馮·諾伊曼體系結構的提出,以及1946年ENIAC的發(fā)明,則讓數字計算時代就此來臨。
在后ENIAC時代,計算機從最開始的軍用走向了民用,其功能不斷發(fā)展和豐富,從最開始的數值計算走向網絡通信、計算感知,并逐漸應用于生活娛樂和企業(yè)管理。與此同時,也因為計算機在各個領域的滲透和深入應用,計算機從最原始的計算工具變?yōu)橐粋€研究對象,伴隨著各類計算理論的發(fā)展,計算機科學與技術、工程和應用也得到持續(xù)的發(fā)展和推進。在這個發(fā)展過程中,傳統的“數”的內涵,也從最開始的“數值”不斷拓展,數據開始以不同的類型、模態(tài)、視圖樣式出現,并服務于人們的需求,傳統意義的“數值”則成為一種數據類型。
信息技術,尤其是互聯網技術的迅猛發(fā)展,煙囪式軟件開發(fā)模式、云計算在不同領域的不斷滲透,以及人們日益多樣化和碎片化的行為方式,或許還有其他更多的原因,讓人們在數據層面不得不面對“大數據”這樣的難題,即難以在期望的時間內利用常規(guī)工具進行有效處理并獲得期望的價值。在當下的大數據時代,傳統意義的“數據”成為一種可以交易的“資產”,一種具有戰(zhàn)略資源意義的“石油”,一種提高競爭力的“資本”,一種用于科學研究的“第四范式”。出于對大數據價值期望的共同追求,社會各界都對大數據產生了極大的興趣、熱情和期盼,使得“大數據”這個概念從其誕生之日起,就得到了“政、產、學、研、商、用”的一致認同,并引起了包括哲學家、科學家、技術研究者和工程研發(fā)人員等的普遍關注。
牛津通識讀本《大數據》一書,當然也是對這一社會關注點的回應。道恩·E.霍爾姆斯教授是貝葉斯網絡、機器學習和數據挖掘方面的專家,她用深入淺出的文字扼要介紹了什么是數據、什么是大數據以及它有什么意義,進而對大數據應用所涉及的存儲和分析技術進行了簡明扼要的綜述,并在此基礎上分析和研判了大數據在醫(yī)學、電子商務、安全、生活等各個領域的應用。這樣一本概述性質的通俗讀物,非常有助于普通讀者更多地了解大數據,學習大數據,應用大數據,進而培養(yǎng)一種大數據思維,以適應未來的大數據時代。
對于本書所涉及的內容,筆者還想稍做一些補充,即看待大數據的三個視角和四個維度,以幫助讀者更加全面地認識大數據。首先談談三個視角。
一是計算視角:從計算視角來看,大數據是一個難以獲取、難以組織與管理、難以處理和分析的技術難題(以及因此而引發(fā)的各類思維層難題),也正是因為這樣的難題驅動,加之人們對大數據在優(yōu)政、興業(yè)、科研、惠民等不同領域的價值期望,促使相關科研人員進行技術攻關和發(fā)明創(chuàng)造,進而推進了相關理論和技術的發(fā)展。
二是科研視角:從科學研究的角度來看,大數據成為繼實驗、理論、模擬之后用于科學研究的“第四范式”(此處的“范式”指的是從事某一科學的科學家群體所共同遵從的世界觀和行為方式)。
三是商業(yè)視角:從商業(yè)應用的角度來看,大數據能夠帶來利潤。一般而言,只要找到一個合適的應用場景,并為這個應用場景找到一個合適的解決方案,知道數據的來源并且能夠獲取,而且有技術支撐(研發(fā)能力),更重要的是能夠找到融資支持(經過可行性分析、盈虧平衡分析等之后),就有可能最終成功應用并獲得收益。這在彰顯大數據商業(yè)價值的同時,也會促使同行去挖掘更多的大數據價值。
更進一步說,大數據的價值實現涉及數據、技術與應用的協同,具有典型的多學科交叉與跨界整合特征,因此就總體而言,實現大數據價值至少涉及如下四個維度(層面)。
1. 算法(Algorithm):大數據價值的實現路徑涵蓋了數據采集與匯聚、數據存儲與管理、數據處理與分析、應用系統開發(fā)與運維,每一個環(huán)節(jié)都需要依賴不同的算法進行,如數據采集算法、數據匯聚算法、數據治理算法、數據處理和分析算法等。
2. 商業(yè)應用(Business):大數據應用一般體現在描述性分析、預測性分析或者決策性分析等,任何一種應用都是圍繞某個具體場景展開的,因此大數據價值得以實現的一個重要前提,是找到一個合適的應用場景,該應用場景既直擊需求痛點并有投資回報預期,又有數據積淀和IT建設基礎。大數據在這個場景的應用,能夠進一步內生和富集更多數據并因而形成數據閉環(huán),就能進一步體現和實現大數據價值。
3. 算力(Computing Power):所謂算力,指的是設備的計算能力,顯然,對于大數據應用而言,更精準(復雜)的算法以及更高效的計算需求都需要強大的算力支撐,因此算力是大數據價值實現的基本保障。
4. 數據(Data):數據是大數據價值實現的基礎,因此必須首先解決諸如數據在哪以及如何從不同的數據源獲取數據,并進行有效的富集、匯聚和深入加工等問題,從而為應用提供數據支撐或高級語義支撐。
2017年,中國政府發(fā)布了“新一代人工智能規(guī)劃”,明確提出了大數據智能這一概念,其內涵在于形成從數據到知識、從知識到智能的能力,打穿數據孤島,形成鏈接多領域的知識中心,支撐新技術和新業(yè)態(tài)的跨界融合與創(chuàng)新服務。顯然,大數據智能進一步明確了,在上述四個維度共同發(fā)力的基礎上實現大數據價值的基本路徑。
此外,筆者還想提請讀者注意,數據的本質是行為主體(例如人)在進行各類活動(生活、工作、娛樂)時的行為、偏好等痕跡被業(yè)務系統(或互聯網、物聯網等)記錄在各個服務器里。因此,數據本身暗含著行為主體的隱私,所以圍繞大數據價值的實現,數據隱私與安全保護是一個不可回避的重要內容。這一點在《大數據》一書中也有專章介紹。2018年5月25日,歐盟《通用數據保護條例》(簡稱GDPR)正式實施,在全球范圍內掀起了數據保護改革的浪潮。在數據全球化深入發(fā)展的當下,如何在后GDPR時代建立起一套數據保護法律體系,既符合國際最佳立法實踐又符合本國國情,既能為個人權益、數字經濟、國家安全等系列利益保駕護航,又能在國際數據規(guī)則制定中占有話語權,也成為各國政策制定者普遍關注的領域。
通讀《大數據》一書,縈繞于筆者心中的問題是:大數據會讓我們的生活變得更好嗎?如何才能讓我們的生活變得更好呢?在閱讀本書的過程中,筆者能夠感覺到作者在寫作時力求做到“在不犧牲準確性的前提下,盡可能寫得簡單”,同時又能做到周全和清晰。因此,本書尤其適合對大數據有興趣的初學者,其真正的意義在于:為你打開了一扇門,并言明了很多方向。
于南京九鄉(xiāng)河
2020年7月12日
- Splunk 7 Essentials(Third Edition)
- 樂高機器人:WeDo編程與搭建指南
- 嵌入式系統應用
- Blockchain Quick Start Guide
- 智能工業(yè)報警系統
- 自動化控制工程設計
- 系統安裝與重裝
- 在實戰(zhàn)中成長:Windows Forms開發(fā)之路
- Word 2007,Excel 2007辦公應用融會貫通
- LMMS:A Complete Guide to Dance Music Production Beginner's Guide
- PowerMill 2020五軸數控加工編程應用實例
- 空間機器人智能感知技術
- 算法設計與分析
- Microsoft System Center Data Protection Manager Cookbook
- Practical Network Automation