- 數據資本大時代
- 朱民 潘柳
- 4131字
- 2025-08-13 16:55:45
第三節 范式變更:數據是智能社會的基礎、資源與資本
一、智能時代的新特征:數據先行
自20世紀60年代開始,信息技術的應用逐步滲透到社會、經濟和生活的方方面面,信息化在將模擬信息轉化為數字格式的過程中,也創造了全新的數據資源。隨著收集的數據不斷增多,人們開始應接不暇。當可用數據量增加后,信息的管理變得困難,更可能導致信息過載,出現信息爆炸(Sweeney,2001;Huth,1989;Shimada,2014)。處理信息和數據的應用程序就非常重要,包括軟件、工具、算法等。因此,在信息時代的一個很重要的特點是應用和軟件先行,數據是數字化服務的副產品,數據的使用者和決策者是人。
當離開信息時代走向智能時代,我們面臨著時代的切換,信息產生的規模如此之大,速度如此之快,數以億計的計算機和移動設備每時每刻持續不斷地創造數量驚人的信息。根據中國信息通信研究院發布的《大數據白皮書(2020年)》,2017年互聯網用戶每天產生大約2.5千億字節的數據,而90%的數據都是在這之前的兩年中創建的;2020年全球數據產生量接近47 ZB(澤字節,1 ZB=1021字節),而作為數據流量代理的全球互聯網協議(IP)流量,從1992年的每天約100 GB(吉字節)增長到2017年的每秒46 600 GB,到2022年,物聯網的進一步接入預計將使全球IP流量達到每秒150 700 GB。大語言模型推動了人工智能的新一輪發展,信息被機器和計算程序使用的頻率呈指數增長。以數據為載體的信息逐漸轉向由機器和人工智能來使用,整體應用以數據為起點,讓機器智能化,智能化的系統進一步處理更多的數據。數據成了訓練大模型的“燃料”,模型從這些數據中學習和提取有用信息,而數據的數量、質量和多樣性都會直接影響到模型的準確性和性能。因此,智能時代的一個根本特征是,數據優先、數據先行。
在“人類智能+人工智能”的新智能時代,借助數據提供的“燃料”,機器可以自主探索以前因為人類認知或科學手段達不到的科技發展空間,這就賦予了數據一個全新的超越性職責和地位,數據變成了智能社會的重要基礎。與此同時,數據和知識是一體兩面的,數據是知識的載體,數據流通即知識流通,智能時代體現了以數據為基礎的科技和社會發展過程。
隨著時代的切換,全球的數據規模以驚人的速度擴大。2018年,國際數據公司在《數據時代2025》報告中測算,到2025年全球數據量將達到175 ZB,是2016年的10倍,其中超過一半(90 ZB)是物聯網設備產生的數據,而不是以人為主體的互聯網數據;80%的數據是非結構化的;數據交互用戶將從50億增加到60億。從國際比較來看,2018年中國數據量為2.76 ZB,僅為美國數據量6.90 ZB的40%,而2023年數據生產總量達到32.85 ZB,同比增長22.44%。國際數據公司預計到2025年,中國數據量將達到48.60 ZB,全球占比接近28%,約為美國數據量30.60 ZB的1.6倍。國際數據公司按每年被創建、采集或復制的數據集來定義數據圈,其2023年發布的全球數據圈報告顯示,中國數據量的規模將從2022年的23.88 ZB增長到2027年的76.60 ZB,復合年均增長率為26.3%。中國將毫無疑問地成為世界上數據量最多的國家。
二、數據帶來思維方式的變革
人類思維方式的變革深受科技進步的影響。其演進歷程可以概括為從遠古時代的行動性思維方式、科學萌芽時期的經驗性思維方式,到近代實驗科學時期的機械性思維方式、自然科學進步時期的辯證性思維方式,再到現代以相對論和量子力學為標志的系統科學發展下的系統性思維方式、以計算機技術為標志的信息科技發展下的信息性思維方式。在這個漫長的過程中,思維主體的能力逐步提高,思維客體的領域逐步拓展,思維工具的功能逐步增強(宋海龍,2017)。進入大數據時代,人類的思維方式也再次產生巨大的變化,思維能力獲得進一步提升。
大數據的特征通常被表述為“4V”。一是體量(Volume)大,全球數據量不斷刷新量級單位,從TB(太字節)、PB(拍字節)到EB(艾字節)、ZB級別,據國際數據公司統計,到2022年底全球數據總量已達到103 ZB,約為2019年41 ZB的2.5倍,海量數據形成了巨大的數據資源庫。二是速度(Velocity)快,互聯網、物聯網、社交媒體等的普及,使數據和信息的產生與傳播速度越來越快。三是類型(Variety)多,數據的類型和形式多樣,技術手段的進步提高了信息的電子化程度,音頻、視頻、圖片、文本、信號等都轉換為數據,其中非結構化數據占主導地位。四是價值(Value)密度低,盡管數據的商業價值高,但從海量數據中提取有用信息的難度大,數據的價值密度低,需要借助數據提取技術的突破才能挖掘其巨大的數據價值潛力。
爆炸性增長且形式多樣的數據不斷挑戰人類能夠處理的極限,也提供了人類認知的新來源,極大地改變了我們的生活方式和理解世界的方式(黃欣榮,2014)。維克托·邁爾-舍恩伯格在《大數據時代》一書中提出:“大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方法?!?/p>
大數據提供了新的認知方式,也必然帶來新的思維方式的變革,從而產生科學范式的轉變。與數據的“4V”特征相呼應,大數據思維具有整體性、多樣性、開放性、相關性和生長性等特征,體現了思維方式的重大變革,本質上是一種復雜性思維。涌現也是復雜性科學和復雜性思維的一個重要特征。在智能時代,大數據思維借助技術上的實現,將對社會發展產生更加巨大和深遠的影響。
三、數據成為智能社會的基礎
人工智能也經歷了從以模型為中心到以數據為中心的范式轉變。人工智能1.0階段的特點是以模型和編程為中心,聚焦模型特征、算法設計和定型的結構設計,由軟件工程師主導,而訓練用的數據是從機器學習發展過程中外生的。人工智能2.0階段也被認為是數據智能時代,其特點是以數據為中心,數據越多越好、越精準越好,數據的規模和質量成為獲得理想結果的關鍵要素,而模型可以相對固定,機器通過數據學習和反饋優化不斷迭代,無限循環,且無須借助人腦。在這個階段,主要關注數據的定義、管理、切割、擴充、增加、修正等,使數據更加有效。同時,有計劃地對數據進行標注、分類和迭代是關鍵,并以專項領域的專家知識編碼,通過不斷地進行數據投入、校準和學習,最后演變成智能化。因此,人工智能體現出顯著的數據驅動性特征。
GPT的發展也再次讓我們確認,未來的智能世界將構建在數據基礎上。GPT的全稱為“Generative Pre-trained Transformer”,即“基于Transformer(深度學習模型)的生成式預訓練模型”。由百余位學者聯合撰寫的研究綜述(Bommasani et al.,2021)分析稱,該模型的核心是基礎模型,通過輸入大量文本、圖像、語音、結構化數據、3D信號等各種類型的數據進行集中處理訓練,模型可以適用于完成各種豐富的下游任務,如問題回答、情感分析、信息提取、圖像捕獲、物體識別、指令跟隨等。
在智能時代,數字化技術依靠數據先行。數據、算法和算力作為三大要素,數據是人工智能的基礎,大量的數據是讓機器獲得智能的關鍵;算法是人工智能的核心,通過機器學習等方法,使計算機能夠從大量數據中抽象出特征,理解和學習規律;算力為人工智能提供計算能力的支撐。數據是人工智能算法模型開發和迭代的基礎,從設計開發、大規模訓練到評測、仿真,再到整個算法的更新迭代,整個過程都需要源源不斷的數據輸入,數據既是起點,也是過程。從這個意義上看,未來科技的核心基礎就是數據科技,對數據的需求進而會催生出一個規模龐大的數據服務業,也就是數據產業。
數據的規模在智能時代變得越來越重要?;A模型通過巨大的參數規模產生了令人驚異的涌現效果,即當模型參數上升到一定規模時,模型性能瞬間提升,能力被涌現出來。例如,與GPT-2的15億個參數相比,GPT-3有1 750億個參數,并可以進行語境學習。盡管沒有在特定任務上進行明確的訓練,GPT-3仍可以通過自然語言提示適配到特定任務上,在大多數任務上取得了不錯的效果(Brown et al.,2020)。這種提示是一種既沒有經過專門訓練,也不被期望在數據中出現的涌現屬性。涌現能力有賴于足夠豐富的數據、數據的表征、數據的交互。在數據規模小的時候,GPT的表現提升是一個線性過程,只有在數據規模足夠大的基礎上,它才能具備涌現能力,實現更陡峭的曲線上升,并產生小規模數據所不具備的能力。GPT-4的參數規模已經達到1.8萬億,是GPT-3的10倍以上。當訓練樣本數據規模大到趨近全樣本數據總體時,GPT便具備了能夠出現新想法的涌現能力,產生數據智慧,這是其能夠迅速走上世界前臺的重要特征,同時,這也意味著需要數據產業化來滿足其龐大的數據要求。
四、數據成為生產要素:從量變到質變
在以巨量、即時、全方位為特征的數據時代,數據量的積累達到了前所未有的規模,為質的提升奠定了堅實的基礎。隨著數據采集、存儲和處理技術的不斷進步,數據的質量、準確性和可用性不斷提高。同時,數據分析算法的優化和智能化水平的提升,使數據能夠更準確地反映客觀事實,為決策提供有力支持。技術、經濟和社會環境的蓬勃發展,為數據作為新型生產要素創造了基礎條件,數據日益成為經濟生產和社會生活的重要戰略資源與新的生產要素。
在人類生產關系演變的歷史規律中,生產要素總是能夠反映生產力發展的內在需求。在經濟學范疇,生產要素指進行社會生產和經營活動所必須投入的各類社會資源,通??煞譃槿悾旱谝活悶樽匀毁Y源,如土地、礦藏等;第二類為勞動;第三類為資本。隨著經濟社會的發展和變革,從農業經濟時代的土地和勞動,到工業經濟時代的機器和資本,再到知識經濟時代的知識和技術,生產要素不斷豐富,各要素的相對重要性也隨之改變,從而帶動生產力的躍遷。在數字經濟和智能時代背景下,強調數據作為新型關鍵生產要素,以數據為核心驅動,重視信息和知識的價值。
土地、資本、勞動力作為傳統工業經濟發展不可或缺的生產要素,正面臨土地約束趨緊、資金投入產出率不高、勞動力結構性失衡等日益嚴峻的發展挑戰。相對于傳統的土地和生產性資本生產要素,數據生產要素具有很強的規模經濟效應,隨著產品規模的擴大,其邊際成本幾乎接近零,邊際收益遞增,可以產生可觀的財富。因此,在數字經濟時代,規模經濟效應被認為是數據要素影響宏觀經濟、推動增長的重要途徑(彭文生,2023)。通過對大量數據的采集、分析和應用,充分發揮數據生產要素的價值,可以大大提高生產效率,創造新的增長點和商業模式。
此外,數據作為新型生產要素,既具有易復制、非均質、非消耗、權屬關系復雜等新特點,也具有顯著的技術-經濟特征,如非排他性、無限增長性、支撐融合性和規模經濟性等。特別是當數據的積累完成從量變到質變的跨越時,數據生產要素對傳統要素的賦能作用也呈倍數增長。