- 大數據經濟
- 謝文
- 4399字
- 2019-01-05 07:11:11

●○●關于大數據,你知道的都不對
一個概念,無論它可以抽象到多么高深的程度,其形成、演變、推廣的過程往往卻很實在、具體,充斥著不同社會力量的博弈。這個概念的對錯與否、生命力的短長、對社會的影響往往不取決于概念本身,而在于它的社會價值。
例如,PM2.5是一個衡量空氣污染的指標概念,是描述客觀存在的一種尺度。但是,這個概念在中國的落地生根卻經過了兩三年驚心動魄、迂回曲折的艱難歷程。這個概念長期被拒絕在中國采用,理由是不合中國國情,不能反映出環境保護方面取得的偉大成就。然后,當億萬百姓可以通過網絡獲取這一指標的實時報道時,又被說成是外部勢力居心叵測的挑釁。終于,現在PM2.5檢測體系開始在全國逐步建立,大眾的興奮度卻逐步降低,因為據說不經過二三十年,中國是很難達到聯合國規定的空氣優良標準的。
再例如,基尼系數是世界各國廣泛用來衡量社會發展水平和社會不平等程度的一個客觀指標概念。但是,這個曾經被中國學界廣泛使用的概念近年來卻無法獲取權威的全國性數據,據說是因為基尼系數七八年前就達到了0. 45的水平,這被認為是一個社會貧富差距過大、繼續增加就會導致社會動蕩的臨界點。一些學人體諒苦心,跳出來說普適性的基尼系數計算方式不適合中國國情,需要建立具有中國特色的基尼系數。因為城鄉二元化,所以應該分別計算城鄉基尼系數;因為沿海內地發展水平差異巨大,所以應該分別計算沿海地區和內陸地區的基尼系數;因為城市地區有戶口的居民與新遷移進城的無戶口居民之間生活水平差異巨大,所以應該分別計算正式居民與非正式居民的基尼系數,甚至干脆將非正式居民排除于統計體系之外。于是,社會貧富差距就成了一個只能泛泛而談而無法實際度量的東西。
還例如,世界多數國家普遍采用的時區制,在中國從來就沒有實行過,據說是怕影響國家統一。夏令時制曾經試行過兩三年又被取消,據說是因為既麻煩又節電效果不明顯。郵政編碼先是被大力推行,然后又被取消,然后又被推行,理由先是推行成本過高,后是不推行成本過高。相反,有些概念的命運沒有這么坎坷,一旦引進國門就大行其道。納米是個只有極少數材料物理科學界專家才明白的概念,但今天在很多超市里卻隨處可見納米除污劑、納米裝飾品,甚至還有什么納米食品。
可見,一個新概念的出現,即使本身正確,孕育著推動科技進步和社會發展的巨大潛能,其真正實現也絕非易事,更可能的是由于社會環境的制約,被否定,被歪曲,被庸俗化。
今天,在中國相當范圍內,開始流行一個全新的概念——大數據。我得承認,這個概念的流行中我自己起了一點作用。在大數據開始被討論差不多一年的時候,它開始淪入其他新概念類似的命運:越來越說不清楚了。個中原因也不難解釋:首先,大數據的概念是個舶來品,在發達國家尤其是美國逐漸成形、討論和實踐。在潮涌般的媒體報道、論文分析和專著論述中,大數據這個概念如同瞎子摸象一樣,被不同視角、不同利益和不同水平的人描述出來,讓人難以琢磨。一個被嚴格定義并被廣泛接受的大數據概念還沒有出現,它更像是一個寬泛的現象描述,各種各樣的東西都被裝在里面。這樣的好處是百家爭鳴,共識會逐漸形成;壞處是魚龍混雜,存在走歪走偏的可能性。其次,大數據是個發展中的事物,人們對其理解、闡釋也在思想的碰撞、利益的競爭和技術的發展中不斷深化,在概念層次和理論框架上說不清楚是必然的,和歷史上許多新理念的形成過程并無二致。再者,關心大數據的主力軍是網絡業和IT業人士,他們目前面臨著沉重的競爭壓力和創新突圍的激烈競爭,難免情不自禁地把自己的戰略、產品、技術和服務裝進大數據這個筐里,圖存發展。
在維基百科網站上,大數據開始是這樣被定義的:“大數據通常包括這樣一些數據集,其體量超出了業內常用軟件工具的能力,無法在可以容忍的時間內獲取、把握、管理和處理。”這個定義顯然是描述性的、單向思維的、自相矛盾的:如果大數據僅僅等于數據體量大,那么大數據與其他數據有什么本質區別?這種區別僅僅在于軟件處理能力上嗎?近年在處理體量相對龐大的數據方面,最流行常用的軟件程序叫Hadoop,那么能夠被它處理的數據算不算大數據呢?說不算吧,Hadoop被很多人稱為第一個大數據軟件;說算吧,它面對的數據并沒有超出它的能力。可見,這種大數據概念一定來自每日和數據糾纏在一起的軟件工程師和數據工程師們,是一種具體的、狹隘的、操作性的定義,經不起時間和邏輯的檢驗。
2001年,在全球IT咨詢服務巨頭Gartner工作的分析師Doug Laney寫了一篇研究報告,第一次提出了一個三維模型,用以分析數據增長所帶來的挑戰和機會。這個三維模型的第一維是高速增長的數據體量(Volume),第二維是高速進出的數據運動(Velocity),第三維是高度異質的數據種類(Variety)。由這三維形成的空間里充滿的就是我們今天稱之為大數據的東西。Gartner采用了這個3V模型,從此成了廣為人知,也被IT業界普遍接受的大數據定義。2012年,作為Gartner資深專家的Laney又在一篇新分析報告中更新了自己的大數據概念定義:“大數據是體量龐大、高速變動和/或種類繁多的信息資產,需要采用全新的處理形式以有助于提高人們在決策形成、視野拓展和過程優化中的能力。”
這是一個很不錯的定義。首先,明確了大數據是一種以信息形態存在的資產,具有3V特性;其次,盤活這種資產需要全新的處理形式;再者,這種資產增值創利主要體現在決策、視野和過程優化三方面。這個定義比前面提過的定義有進步,至少把大數據從狹窄的數據處理領域擴展到了整個IT業,也就是信息技術業。而且,由于信息技術已經普及到各個產業,應用于社會生活的方方面面,所以,大數據也就應該被社會各領域的人們所關注。
但是,我對這樣一個大數據概念的定義仍然有些不滿足,有些困惑,有些疑慮。這個定義仍然是描述性的,有些含混不清、難以把握。例如,“體量龐大”是什么意思?體量為一個MB的數據等于1024KB,一個GB數據等于1024MB,一個TB數據等于1024GB,一個PB數據等于1024TB……數據體量大到什么程度就算大數據了?“高速變動”是什么意思?1GB/s還是1TB/s?或者是數據體量每年翻番?“種類繁多”是什么意思?1000種不同數據?100種數據來源?10種數據格式?“全新的處理方式”是什么意思?今天的全新方式也許明天就過時了,明天的全新方式也許后天就落后了,怎樣的處理方式才能在本質上算是大數據處理方式呢?另外,除了“有助于提高人們在決策形成、視野開拓和過程優化中的能力”,大數據就不能再干點別的什么事了?在這三種用途之外就不存在大數據現象和大數據生存空間了嗎?盡管有大量的論文、書籍試圖對此詳加說明,但好像至今沒有誰能說得很清楚。
可見,這樣的定義仍然是技術性的、應用性的,隱約可見IT咨詢服務業自我推銷的影子。在這樣的定義基礎上,很難支撐正在被媒體大肆宣揚的“大數據革命”“大數據時代”“新工業革命”這樣一些新概念。更糟糕的是,大家可能都在使用“大數據”這個概念,可能都認為“大數據時代”很令人振奮,甚至都贊同“不數據,毋寧死”的觀點,但說著說著就南轅北轍,就自相矛盾,就互相為敵了。這里的主要原因就是因為大家對大數據的理解不一樣,甚至完全相反。
在閱讀大數據方面的文章書籍時,在各種場合與專家學者交流中,一個突出的感覺就是大家普遍在使用大數據這個概念的時候時態混亂,有的使用過去時,有的使用進行時,有的使用將來時,還有的各種時態混合使用,這就使一個本來就有些玄妙的概念更加難以理解了。
很多人非常正確地指出,大數據本不是個新東西,概念的提出和使用已經有幾十年歷史了。用這樣的過去時態討論大數據的大都是大學校園里的資深學者教授。我本人第一次聽到大數據這個詞,還是20世紀80年代中期在美國哥倫比亞大學就讀社會學,學習宏觀社會結構理論和社會網絡分析的時候。當時一些學科,主要是天體物理學、生態學、自動控制以及社會學和經濟學的某些分支,在前沿研究中都遇到了共同的問題,那就是學者們有機會獲得了海量的研究對象數據,卻因為計算機能力、研究經費不足和分析方法不夠等原因而望洋興嘆。久而久之,“大數據”就成了描述這一現象的代名詞,也就是數據量太大、太復雜以至于在當時條件局限下無法利用。大數據等于大麻煩、大障礙、大問題。
但是,在經過四分之一個世紀之后,我們今天所說的大數據還和當年的理解別無二致嗎?當年的主要矛盾是計算能力大大落后于實際需求,在哥倫比亞大學這樣世界聞名的頂尖學府里,計算機主機的能力大概也就相當于今天一臺配置比較好的臺式計算機,使用起來過程復雜,需要大量的研究經費支持。今天的主要矛盾正好反過來,是計算能力大大超過實際需求,以至于大批網絡公司和其他各行各業的眾多企業和機構面對潮水般涌來的數據不知所措,不知道如何利用,只好定期刪除。問題不在于知道如何使用數據卻受到計算能力的局限,而是空有充沛的計算能力卻不知道如何利用手中的數據進行創新,產生顯著的經濟價值和社會效益。假如能夠找到合適的應對之道,大數據完全有可能變成大機遇、大創新、大空間。
很多人以大數據的領先者自居,利用各種渠道和場合推銷自己的硬件、軟件或解決方案,自認為是大數據的終結者,說話的時態用的是完成時,這樣說話的人大多出自IT業、軟件業或咨詢服務業。除了完全可以理解的商業動機外,這種完成時的大數據說法也不無道理。大數據發展是一個漸進過程,軟硬件方面對此的配合適應也是一個連續的進程,很難找到一個清晰的邊界劃分什么才是大數據時代的軟硬件或解決方案。但是,如果把今天的新產品、新技術都裝進大數據這個筐里,勢必混淆了大數據與非大數據的界限,削弱大數據所引發的革命性變革力量,無法區分產業進化與產業革命的分野。
很多人已經自認為是大數據的實踐者了,四處可聞數據挖掘和精細化運營的實例宣講和心得體會,說話的時態用的是進行時。這樣說話的大多是網絡公司,特別是電子商務和云計算領域的公司。從好處看,眾多企業舉起了大數據的旗幟,對大數據未來的發展絕對是個利好,眾人拾柴火焰高;從壞處看,如果眼下這些數據挖掘和精細化運營的實踐就算是大數據了,而由此產生的產業創新和經濟效益卻并無驚人之喜,這對大數據發展又是個利空,容易讓人產生幻滅感。
凡此種種,不一而足。在使用大數據概念上的時空錯亂反映了一個事實:大家對什么是大數據理解不一,做的東西真假都有,新舊俱全。力圖盡可能地探究大數據的概念含義,并不是因為我喜歡咬文嚼字,或是認為只有從理論到實踐才是成功的唯一道路。事實上,很多引發產業革命的創新者和成功者在開始階段未必能想得很清楚,自己做的東西是否正確,甚至可能做錯了再重來。但有兩點卻是共同的:一是做的東西前無古人,是創新,不是舊東西的延續、改良、精致化;二是雖然開始未必想得很清楚,甚至想錯了,但一定是走在正確的大方向上。所以,在今天的大數據熱初起的時刻,盡可能地厘清這一概念的內涵和外延,理順概念的來龍去脈,推演概念的潛力與發展,是非常必要的。概念過小,必然難以產生大影響;概念過大,必然魚龍混雜,失去生命力。