官术网_书友最值得收藏!

  • 大數據經濟
  • 謝文
  • 3157字
  • 2019-01-05 07:11:12
數據的進化——從數據到大數據

●○●數據的進化——從數據到大數據

數據的出現和人類對數據的利用,可以追溯到三千多年前的古代。在尼羅河兩岸的古跡中,我曾看到古埃及法老們在河邊石柱上留下的每年測量尼羅河水位的刻度,他們以此來預測來年可能的稅收數量。在希臘的博物館中,我曾見到當時用來觀察天體運行的儀器,還有具備八十多個部件的機械式計算機,它們可以精確地確定時間、方位和方向,用于船舶的導航。古代中國早在漢代就開始人口普查和田畝統計,用于稅收政策的制定。但整個看起來,在農業社會中,人們對數據重要性的認識是不夠的,創造數據的能力是低下的,對數據的利用是簡單膚淺的,專制統治者們經常置數據于不顧,隨心所欲地發布政令,導致社會動蕩、混亂甚至崩潰。

工業時代的到來為數據的發展和人類對數據的利用和依賴提供了堅實的條件。科學告訴人們如何尋找數據、分析數據和利用數據。數據開始分門別類地得到巨大的發展。物理數據、化學數據、生物數據、地理數據、天文數據、經濟數據、社會數據、文化數據、軍事數據等開始成為一門門科學的基礎,成為經濟、社會、文化發展的依托,成為人類思想的根據。

貨幣和證券也許可以被視為工業時代最特殊、發展最快、影響也最大的一類數據。在農業時代,貨幣作為價值交換物,主要形式為貴金屬,自身就具有相當價值,數據的屬性并不明顯。紙幣的出現與大規模使用,充分顯示了價值符號的作用,表現出數據交換就等于價值交換的特征。有價證券的出現與大規模使用,進一步凸顯了數據的作用,乃至于工業時代被冠上了資本主義時代的名稱。人們把以貨幣和證券為代表的資本視為社會發展的動力,同時也視為社會矛盾與斗爭的根源。

當人們開始有意識有目的地收集數據和利用數據的時候,困擾開始了。美國在19世紀后期每隔十年一次的人口普查,已經不滿足于簡單地統計人口數量,還想知道人們的居住條件、收入水平、婚姻與家庭狀況、職業與行業變化等,以此來決定國家的政治經濟政策。于是,調查表越來越長,問題越來越多,分析越來越細。人口普查結束后,需要七到八年的時間才能完成數據分析,這已經快到下一次人口普查的時間了。處理數據的能力遠低于獲取數據的能力,不僅損害了數據分析結果的時效性,也提高了數據處理的成本。更何況由于數以萬計的人參與了數據處理過程,手工誤差也無法有效控制。于是,人們開始想到了用機器輔助處理數據。

最早的計算機是機械的,笨重易損,只能做簡單的四則運算。所以機械式計算機未能廣泛普及,也未產生顯著的社會影響。“二戰”后,科學家想到用0和1兩個數字組成的字符串就可以表達一切文字、數據和符號,而電子管的開和關兩個狀態又正好可以表示0和1。于是,電子計算機問世,一個全新的時代開始了。半個多世紀過去,計算機領域的發展一直遵循摩爾定律,計算速度每一年半左右翻一倍,計算機器件的相對成本每一年半左右降一半。可以說,今天的世界沒有哪一件事、哪一個人沒有直接或間接地同計算機打交道。沒有了計算機,整個世界將會陷入混亂。

早期的計算機還是只處理特定科學、社會和經濟領域里精心準備的數據,能夠使用計算機的人也都是經過專門培養、長期訓練出的專門人才。計算機處理數據很快,但向計算機里輸入數據卻是個力氣活,很煩瑣,很耗體力,很費錢。我在20世紀80年代初去美國讀書時,看到系里的計算機室就像個計算機博物館,光數據生成設備就有打卡機、讀卡機、紙帶穿孔機、紙帶讀孔機以及各種型號的磁盤等。各種型號的計算機終端和個人計算機多達十來種。僅僅掌握各種數據生成方式和各種計算機操作系統就花了我整整一學期的時間。

個人計算機(PC)、軟盤、Mac和Windows操作系統等一系列計算機創新的出現極大地推動了計算機的普及,人們在日常工作和生活中使用的文字與數字在計算機上自動轉換成數據。隨著計算機軟件業的發展,圖形、照片、語音、影像等都成為可以處理的數據。美國在20世紀90年代初,其他發達國家在90年代中期,中國在21世紀初都基本完成了計算機的普及,有效地推動了社會的現代化和信息化進步。

這時,數據已經差不多變成了計算機領域的專有名詞,只有能夠輸入計算機的才算數據,只有計算機能夠處理的才算數據,其他只被看作準數據或非數據。如何獲取、存儲、計算、使用數據變成了專門的高深學問。掌握了這些學問的人也成了社會需求大、收入高、貢獻大的一批人物。

隨著計算機的普及,如何在計算機之間迅速傳遞數據就成為新的挑戰,特別是在空間距離遠、時間要求快的一些領域,例如國防、金融、科研、通訊等。最開始,專家們運用不同的方法和標準在計算機之間建立了一些專用線路和專用網絡,用來傳輸專門的數據。這種方法成本高、維護難、用途窄,人們又試圖利用公共通訊網絡例如電話網傳遞數據。終于在20世紀70年代開始,經過十多年的努力,建立了后來被人稱為互聯網的通用型數據傳輸網絡。一個嶄新的時代開始了。

計算機與互聯網的結合,不僅解決了數據計算和數據傳輸問題,更重要的是人們解放了自己的雙手、雙腿和頭腦,可以集中思考一些更具挑戰性和前瞻性的問題。例如,利用計算機和互聯網,有沒有可能把過去無法數據化的東西變成新的數據源?如何利用這些新獲得的數據產生新知識、新產品、新服務?怎樣利用新數據解決困擾人類社會的重大問題,例如戰爭、貧困、疾病和貧富差距?

在過去二三十年中,人們利用各種新出現的科學技術進步成果,創造出了各種獲取全新數據的工具,例如手機、手表、眼鏡、穿戴用品、運輸工具、制造設備、醫療設備等,都可以用來獲得過去無法獲得的人類生活、生產、交往的數據,獲得自然界運動變化的數據,獲得物質自身與物質生產的數據。這些數據數量之多、種類之繁雜、增長速度之快,終于在2010年前后引起了足夠多的人的注意,并開始思考這個現象背后的意義。一時半會兒想不明白,人們干脆給這種現象起了個形象的名稱——大數據。

計算機技術和互聯網專家們看到了數據多、數據亂、數據增長快的麻煩,所以從技術挑戰的角度描繪這一現象,失之于狹隘。

IT公司和網絡公司看到了利用數據提高原有商業模式的效率,增加收入的好處,所以從精細化經營和數據挖掘技術的角度描繪這一現象,失之于淺薄。

社會大眾看到了個人數據有可能被企業、政府或他人利用,所以從個人隱私和權利角度描繪這一現象,失之于片面。

老派知識精英們以及體制掌控者們看到了數據泛濫有可能造成現有社會體制混亂,失去精神貴族或既得利益集團的地位,所以從消極抵抗的角度去描繪這一現象,失之于恐懼。

盲人摸象,各有各的感覺。但無論突出哪一點,都無法抹殺一個事實:世界上的萬事萬物正在以越來越多的數量、越來越多的種類、越來越快的速度被人類數據化。這是世界上各行各業的人們出于各種動機有意或無意共同努力造成的,不以哪個人、哪個社會階層、哪個利益集團的意志為轉移,差別無非是哪個國家走得快一點、自覺一點、得益多一點,哪個國家走得慢一點、被動一點、受害大一點。在這個意義上,大數據可以被定義為:世界上萬事萬物都在被數據化,形成一個與現實世界相關聯的數據世界。人類可以利用數據化的方式,應對和解決生存與發展問題。

歷史上,凡是被冠以“大”的東西,都是后來被公認改變了世界的事情。“地理大發現”在當時不過是一個叫哥倫布的冒險家想找到去印度的航線,誤打誤撞發現了美洲,居然引發了殖民主義熱潮,為工業革命做了知識和物質準備。“法國大革命”為人類提供了一整套新思想和全新的共和體制。“大蕭條”以全球范圍的經濟崩潰,為資本主義從原始狀態進步到現代狀態做了痛苦的準備。“大爆炸”理論以超乎常識想象的卓越思考與驗證,為人類認識我們所生活的宇宙空間提供了完美的說明。這些事情發生的時候,人們并未認識到它們的歷史意義,時間過得越久,伴隨這些事件所形成的概念名詞越顯示出其豐富的內涵。“大數據”應該有資格成為“大”概念系列中最新的一員。

主站蜘蛛池模板: 乡城县| 盈江县| 怀柔区| 阳泉市| 云南省| 商都县| 佛冈县| 师宗县| 延边| 科技| 佛教| 酒泉市| 焉耆| 宁远县| 通江县| 汶川县| 高安市| 长葛市| 商丘市| 鄂伦春自治旗| 民权县| 高邑县| 南充市| 佳木斯市| 丘北县| 益阳市| 莒南县| 巴林左旗| 西城区| 凌云县| 图们市| 商洛市| 遂川县| 南投市| 济阳县| 珠海市| 营口市| 荔浦县| 寻甸| 岱山县| 洞口县|