- 為數據而生:大數據創新實踐
- 周濤
- 1504字
- 2019-01-03 01:25:21
四歲的時候,我搬到成都玉林小區無線電七廠的住宅區,一住就是二十多年,直到現在還時不時回去。住宅區旁邊有一個花園,兩千多平方米的面積,很小的一塊綠地。不過,那時候還沒有那么多麻將桌貼在它臉上,因此草木更蔥郁,蟲蟻也更繁忙。在街頭電子游戲機還沒有風行的時候,這灣小園承載了我童年大部分流連的身影。
在我算不上合群的童年生活中,有一件事情讓身邊的小伙伴們都驚呆了。花園里面種著一種樹,似乎是柏樹,但又有些不像。樹只有四五米高,掛著一身一簇簇并在一起的葉子,到了冬天,大約一半還綠著,另外一半會失水變成深褐色。大概是小學三四年級的樣子,那時候我每天中午都會從學校回來,在花園邊上的“育苗食堂”吃午飯,然后回家午睡。有天中午剛吃過飯,不知道自己當時是怎么想的,我拿出一盒火柴去點那樹的葉子。火借風勢,如大鵬展翅,扶搖直上,也就十幾秒鐘的光景,把整棵樹都點著了。四五米高的火焰跳躍在我面前,所有黃色的葉子都變成了火,而綠色的部分還依然綠著,只是“噼噼啪啪”失水呻吟。我不知道大江健三郎先生有沒有親歷過類似的場面,我當時仰望這燃燒的綠樹,儼然有一種宗教般的崇高與沉醉,現在想想,不過是渺小和畏懼的變體罷了。
在我的記憶中,點火燒樹這件事情在我們小區廣為流傳,很長的一段時間里都讓我風光不已。遺憾的是,我沒有辦法將彼時彼刻確切而生動的畫面分享給我現在的朋友,更讓我失望的是,最近和當年同一個院子里面長大的伙伴們說到此事,他們竟然已經完全沒有印象了。至于親長記憶中我的成長軼事:媽媽說我這輩子說的第一個詞是“嘎嘎”,在四川話中是肉的意思,可見天生吃貨;五舅媽說我小時候特別調皮,一溜煙跑過自由市場,要把所有豆腐攤子上面的豆腐都戳一個小洞,害得賣豆腐的遠遠看見我就要把豆腐蓋上……這些有趣的故事,在我的記憶中是一點兒影子都沒有了。
剛剛搬到玉林小區的時候,單位宿舍樓的外面就是一條小河,河對面是大片的農田。有時候,趁著爸爸媽媽不在,我們一群小屁孩兒取出藏好的“棍棒刀槍”,就到河對面去“遠足探險”,往往因為帶回來玉米、青蛙等成果,而被爸爸媽媽發現、教育。后來我們學聰明了,在河邊整理了一小塊空地,搬幾塊磚壘一個簡單的灶,搞些樹枝廢紙點燃,把這些就地取材的東西加上從家里偷的土豆、紅薯和各色調料,當場燒烤吃掉。現在想起來,其實爸爸媽媽應該是早就知道了,不然誰會經常到家里偷走土豆紅薯,然后又一臉煤灰地回來。不說破,是因為不忍破壞我們的開心。
現在,我們的房子緊貼著一環路,算是城市中心的中心了。小河變成了馬路,河對面的那塊空地變成了交通銀行一個很大的營業廳。好幾次我和朋友路過此處,講起以前童年的故事,都難以把營業廳里面取號等候的人群和“昨天”蹲在灶火邊上等著紅薯變熟的那群孩子聯系在一起。有時候我自己都無法相信,今天這個被鋼鐵和金錢武裝到了牙齒的偉大城市,曾經不過是綠水鄉村柔軟的延伸。
以前看法國作家帕特里克·莫迪亞諾(Patrick Modiano)的中篇小說《青春咖啡館》,其中有一名外號叫“船長”的人,在一個紅色塑料封皮的筆記本上,記錄了三年來光顧孔岱咖啡館的每一位客人進來時的確切日期和時刻,一共記滿了190頁。我一直以為這只是一種小說家的夸張手法,卻不知道借助現代的技術,我身邊的朋友做得比“船長”還要細致。
前幾個月,我去拜訪一個朋友,他家里有一個一歲四個月的小女孩兒,很可愛。在孩子房間的一角有一個很小的攝像頭,視野覆蓋了房間里大部分的空間,小孩子在這個房間里面絕大部分的活動都被這個攝像頭記錄下來了。朋友告訴我,這個攝像頭一天記錄的視頻壓縮存儲,也就2 GB左右的數據量,他們把每天的視頻做成一個文件,小孩子從出生到一歲的所有記錄,用一個移動硬盤就能全部存儲下來了。孩子的母親興沖沖地把硬盤接上電腦,給我看小孩子滿百天的樣子、第一次搖搖晃晃站起來的樣子、“抓周”時候糾結猶豫的樣子……
對于爸爸媽媽而言,這些記錄無疑是有用的,在他們年輕的時候,不會錯過小孩子成長中每一個重大的飛躍;當他們慢慢老去,孩子也離開自己身邊出去闖蕩的時候,他們隨時可以重溫曾經的快樂溫馨。
對于孩子而言,我不知道擁有這種記錄到底是幸運抑或不幸。幸運的是,他們永遠都不會在記憶的泥沼中迷失,因為有“標準答案”可以隨時查證。不幸的是,他們失去了在記憶中重塑自己過去的機會:童年變成數據,定格在硬盤中,既不可能變得更好,也不可能變得更壞!
我讀《神雕俠侶》不下十遍,前前后后,自己心目中小龍女這個人物的相貌和性情變化很大,既有自身感情離合的原因,也有彼時彼刻不同心境的原因。后來看了熱播的電視劇,再想起小龍女這個角色,腦海里一定出現李若彤的形象,想趕也趕不走。
所以說,記憶中的童年是繽紛夢幻的,數據中的童年是不容置疑的,前者屬于自己,后者屬于大家。不僅屬于大家,還搶走了原來屬于自己的!
主動或被動,我們都是數據貢獻者
不管我們心中是否還帶著對舊時代的眷戀和對新時代的惶恐,一個“一切都被記錄,一切都被分析”的數據化時代的到來,是不可抗拒的。親愛的朋友,如果你希望像紙版的《新聞周刊》一樣,用血肉之軀抵擋互聯網的巨輪,又或者學習張勛,重新蓄起辮子,向著過去狂奔,那我只能為你奏一曲挽歌。
人類是數據化舞臺上當仁不讓的絕對主角!
首先,我們自己主動貢獻了大量的數據。
想想艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)在他的著作《爆發》中介紹的三個例子:藝術家哈桑·伊拉希因為不滿安全局對他的監視,干脆自己主動在網站www.trackingtransience.net上面記錄了他所有到過地方的位置和數萬張他所到之處的照片和場景;微軟研究院的戈登·貝爾(Gordon Bell)十多年來一直隨身攜帶一個能夠自動拍下他眼前每個人照片的數碼相機,以及一個能夠隨意捕捉身邊大范圍內的各種聲響的錄音機;麻省理工學院媒體實驗室的德布·羅伊在家里安裝了11個攝像頭和14個麥克風,記錄了數十萬小時的音像資料。
看起來這些只是極端的個例,實際上,我們在主動貢獻數據方面和他們沒有多大的區別。我們去淘寶買東西、從網上下載各種軟件和游戲、到醫院刷卡看病、預訂機票和火車票、在網絡上發表博文、通過QQ聊天、去大眾點評贊美成都火鍋、去社區銀行辦理金融業務、到ATM機取款、向雜志投稿、給糗事百科寫笑話、成為某會所的高級會員、到4S店維護汽車、在微信上搖朋友、去酒店開房入住……我們刷各種各樣的卡、讀取各種各樣的證件、在線上寫各種各樣的東西、在線下填各種各樣的表格,等等,都是一次次主動向不同的系統提供數據。
其次,在我們不知情或者意識不到的時候,很多數據已經被記錄下來——我們也是數據被動的貢獻者。
在瀏覽網頁的時候,瀏覽器自身以及各種插件和Cookie都會記錄你所訪問過的網頁以及你在這些網頁上的點擊。所以,當你打開自己兒子電腦的瀏覽器,發現推薦的網頁都是色情的,千萬不要投訴瀏覽器的開發團隊。
在你搜索的時候,搜索引擎會記錄你的搜索關鍵詞以及在搜索結果中的點擊行為,事實上像百度這樣的企業,能夠準確地判斷出絕大多數電腦面前坐著的到底是男是女,也知道此人是資深屌絲還是高富帥。在你走路的時候,公安局的天網系統會記錄下你的視頻,如果你不相信的話,到火車站這類防盜搶的要地,賊眉鼠眼地來回走上一段時間,沒準兒就有便衣來找你了。
在你打開手機之后——如果你用的是智能手機——你的位置和運動、安裝和激活的應用、展示和點擊的廣告都會被記錄下來;在你驅動汽車之后——如果你開的是一部好車——你的所有操作:油門、剎車、方向盤、離合器、擋位調整,等等,都會被主控電腦記錄下來;在你打開電視之后——如果你用的是智能電視——你在遙控器上的所有操作以及你正在觀看的電視節目都會被記錄下來。
一切都被記錄,一切都被分析
除了人類自身,動物、植物和大自然也為我們貢獻了可觀的數據。我們在很多動物身上裝上便攜式的定位器或傳感器,記錄它們遷徙、狩獵的運動軌跡和環境特征;我們利用外太空的巨型天文望遠鏡和地表觀測站的望遠鏡陣列來記錄宇宙中曾經發生和正在發生的事情;我們整合溫度、濕度、顆粒物、特定化學成分的探測設備,記錄空氣的質量;我們在主要河道的兩邊建設大量監測點,實時記錄水位、流量、流速和水質。
政府、企業、科研機構、環保團體等共同構筑了一個巨大的棱鏡。這個棱鏡的一方是萬生紛沓的數據,另一方是被肢解后等待分析的各色數據。不僅萬物自身在其中,它們的行為、變化和關聯也被忠實地記錄下來。數據采集從靜態變為動態,從記物擴展到載事,數據量也指數級地爆炸增長。
中國的運營商每天要記錄50億通電話,一家大型連鎖超市每天的消費記錄達到6 000萬條,百度每天要處理超過10億次的訪問請求,而Facebook一個月僅照片就會更新10億張。根據IBM最近的估計,我們每天新產生的數據量達到2.5×1018字節。這個數字有多大呢?如果一個漢字占據2個字節,把它寫在一張紙上需要1平方厘米,那么我們每3秒產生的數據,若是打印出來,可以把釣魚島嚴嚴實實地覆蓋1 000次。
四大方面,讓數據指數級增長
在可以想見的不遠的將來,數據量的爆炸性增長還將繼續。這些增長的數據,在很大程度上有賴于四個方面的發展。
第一,通過愈來愈強基于智能終端的通信,個人行為的數據將被深度采集。其中既包括桌面電腦和智能手機這種已經普及的終端形態,還包括各種智能家電和智能汽車,以及未來可以從我們的手表、手機和眼鏡中投射到玻璃上甚至空氣中的全息互動屏幕。
第二,針對人體生理信號和生物信息的采集,將產生巨量的新增數據。未來的健康保障機構,將通過存儲和分析個人的基因信息,為不同個體提供量身定做的個性化醫療方案。當你的某些器官,甚至大腦的某些特定區域出現不可逆轉的病變時,通過3D全息技術,可以用人工培養甚至3D打印的器官完成移植手術,還可以通過腦機接口(brain-computer interface,BCI)和微芯片的植入,激活甚至增強你的大腦中的某些功能。更可觀的是,通過某些非干預的隨身設備,包括項鏈、手環、眼鏡、耳塞、戒指,等等,我們可以實時采集你的生理信號,包括心跳、血壓、血糖等基本信號,以及睡眠狀況、新陳代謝水平等綜合指數,這些數據被傳到云端的服務器,通過分析計算,實時監控和管理你的個人健康。
第三,通過無處不在的各種傳感器,大自然中發生的點滴變化都會事無巨細地被翻譯成數據。傳感器的發展正在經歷幾十年前發生在電子計算機上的一幕——它們變得更加小巧,更加便宜,同時卻更加精確,擁有更強大的通信能力。越來越多的傳感器被投放到大自然中,監察江河湖泊中的氮磷含量、土地的鹽堿化程度、空氣中的可入肺顆粒物(PM2.5)的數量……除了對環境的常態分析之外,很多傳感器還將服務于對自然災害的預警,包括森林火災、地震、火山爆發,等等。未來,以傳感器為代表的小型設備所采集的數據,以及這些設備之間通信產生的數據,將成為新增數據的主要構成。
第四,大型的科學研究將產生巨量的數據。歐洲核子研究組織在瑞士日內瓦建設了人類歷史上最大規模的粒子對撞機,它每秒能夠產生40 TB的實驗數據,相當于40 000部高清電影。正是通過對這些數據的分析,我們找到了一篇在50年前并不起眼的論文,在這篇論文的最后,相當隱晦地提到了一個有質量且自旋為0的玻色子,從而,人類比歷史上任何時期都更接近創造世界的神的本質。
數據化本身,或許還走在數據挖掘和分析之前,將成為未來十年極其可觀的一個大產業方向。據互聯網數據中心(Internet Data Center,IDC)預測,到2020年,全球將有300億具有互聯互通功能的智能終端,這些終端將成為更多數據的來源。僅這一項就將帶來高達8.9萬億美元的收入預期。中國將在數據化產業中扮演關鍵角色,預計到2030年,一個中國的家庭平均會擁有40~50個智能傳感器,這些傳感器每年將產生200 TB的數據。
將來總會有一天,我們的大腦活動會被記錄分析,我們的身體姿態和微表情也會被記錄分析。
我們因為微微出汗而改變的皮膚濕度和導電能力會出賣我們內心的緊張,我們身體的微微顫動會出賣我們靈魂的悸動。如果需要,我們在表白之前就能夠預測到被拒絕的概率,我們還能夠自動知道我們的伴侶最需要的禮物——通過對他/她在各處留下的數據軌跡的深入分析。如果需要,我們可以建立一座直達天堂的巴別塔,因為文化和文化、語言和語言之間都可以互相翻譯。在一個由數據、計算和模型統治的世界里,文化多樣性將喪失賴以存在的立足點。那個時候,我們或許不會再犯巨大的錯誤,因為錯誤的決定在出現之前就已經被數據和計算所否定。那個時候,我們或許也不會承受巨大的痛苦,因為我們與伴侶性格是否匹配、有多大的可能性能夠白頭偕老,都是可以計算并且排序的,所以我們在戀愛中遇到挫折、在婚姻中遭受背叛的可能性都會很低很低。
唯一幸運的是,我,以及看到這本書的每一位讀者,在這一天到來之前,都已經去世了。