官术网_书友最值得收藏!

  • 數據資本大時代
  • 朱民 潘柳
  • 7263字
  • 2025-08-13 16:55:45

第二節 范式變更:人工智能的突破與顛覆

人工智能歷經60多年起起落落的發展,帶來了巨大的變革,在科研、生產、社會、國防等眾多傳統領域取得了顯著的突破,深刻地改變著社會運作方式和生產效率。如今,大語言模型,特別是ChatGPT走到了臺前,對科技和發展產生了根本性的顛覆。未來,隨著技術的不斷進步和應用場景的不斷拓展,人工智能無疑將為人類社會帶來更多驚喜和變革。

一、人工智能驅動科研進入“第四范式”

近100年來,科學研究的推進“既快又慢”。“快”是因為技術革命、學科交叉和知識積累帶來的突破,我們獲得了眾多成果;“慢”是因為隨著問題復雜性的增加,很多高維研究理論仍然難以用數學模型進行處理或驗證。在學術研究領域,這被稱為“維度的詛咒”。愛因斯坦在1915年基于四維的黎曼空間提出廣義相對論,而以量子力學為代表的眾多基礎科學理論研究停留在四維領域已經很長時間,維度成為難以逾越的障礙。隨著人工智能的發展,具備計算上千個維度、一萬億個變量方程式能力的大模型出現,由此引發了科學研究方法的根本變化。

從簡單性科學到復雜性科學的演進,標志著科學范式的根本性轉換??v觀人類科學發展史,從經驗科學、理論科學到計算機科學,再到數據密集型科學,思維方式一直在不斷變革,科學研究的范式也相應地不斷轉變。智能時代啟動了以數據為基礎出發點的科技和社會發展方式的轉變,由大數據驅動的知識發現對社會科學認識論和方法論的傳統研究方法提出了巨大挑戰?;跀祿闹R發現,1998年的圖靈獎得主詹姆斯·格雷于2007年在美國國家科學研究委員會計算機科學和電信委員會的演講中提出了科研“第四范式”(Kristin,2011)。

科學研究范式發展至今經歷了四個階段:實驗科學范式、理論科學范式、計算科學范式和數據密集科學范式。

實驗科學范式,是人類早期科學研究的第一范式,主要采取觀測、記錄、實驗和歸納的方法,17世紀科學家弗朗西斯·培根提出一套包括“先觀察—再假設—最后實驗”的實驗科學“三表法”,一直為科學界所沿用,但在這種范式下所取得的數據極為有限。典型范例如伽利略在比薩斜塔證明“兩個鐵球同時落地”的實驗、牛頓的經典力學實驗等,都屬于實驗科學的范疇。

在19世紀以后成熟起來的第二范式是理論科學范式,以建模和歸納分析為主,重視理論定義、邏輯推理及演繹,用模型或歸納法進行科學研究,例如數學、物理、地理、經濟學、計算機等學科中以數學模型為主的理論研究。

第三范式被稱為計算科學范式,由1982年的諾貝爾物理學獎得主肯尼思·威爾遜提出并確立,借助計算機軟件的計算、仿真和模擬等手段來幫助分析那些無法通過實驗和理論推導解決的復雜科學問題。

第四范式為數據密集科學范式,實現了從傳統的假設驅動向基于科學數據進行探索的科學方法的轉變(鄧仲華和李志芳,2013)。不同于第三范式中先設定理論再收集數據進行仿真計算和驗證的過程,在第四范式下,人們是從已有的大量數據出發,通過計算去發現隱藏在數據中的科學規律和理論。這個過程可以理解為,以數據驅動為主導,用海量數據代替人類傳統的經驗觀察過程,借助算法、算力來實現遠超經驗范式的理論歸納。

第四范式將數據科學與前三種科學范式區別開來,帶來了科學發現的變革。從數據信息時代邁向數據智能時代,大數據“集量成智”的本質特征提供了解決問題的數據智慧,引起新的思維革命,在研究對象、研究路徑、研究工具、知識產品、分工流程等方面都產生了深遠的影響(牛正光,2017)。

隨著人工智能與社會各領域的深度融合,大語言模型、機器學習在科研流程中廣泛應用,“AI for Science”(人工智能驅動的科學研究)更進一步推動智能科學研究走向“第五范式”,即以人工智能技術為核心,融合人的知識和價值,幫助科學家提出假設、設計實驗、收集和解釋大型數據集,從而獲得僅靠傳統科學方法難以實現的洞察力和跨領域科學研究成果。從預測天氣和蛋白質結構到模擬星系碰撞,再到設計優化核聚變反應堆,甚至像科學家一樣進行科學發現,這種智能科學范式通過人類智慧、機器智能和數據之間的交互,實現了數據和智能的整合與強化,為科學研究開辟了新視野和新路徑,在復雜巨系統科學研究領域有著廣泛的應用前景(Xu et al.,2021;Wang et al.,2023;Berens et al.,2023;顏世健和喻國明,2024)。

二、以數據為基礎,人工智能加速人類突破科研邊界

人工智能能夠幫助人類學習新知識,重組已有知識,并通過知識發現與知識重組促進經濟顯著增長(Agrawal et al.,2017;Aghion et al.,2017)。以數據為基礎的人工智能科研具有非常廣闊的跨領域應用前景,包括生命科學領域的藥物研發、合成生物學,材料科學領域的金屬材料、高分子材料、陶瓷和無機材料,能源科學領域的石化能源、電池、新能源,電子工程與計算機科學領域的半導體材料、信息儲存以及地質和環境科學等。人工智能以數據為基礎,正助力科學研究在各個領域快速突破和創新,促進經濟增長。

1.生命科學領域

基于數據的大模型在蛋白質組學、藥物研發和基因組學等領域的應用已經取得了巨大的進步,未來仍具有非常廣闊的想象空間。以蛋白質結構的分析為例,已知氨基酸順序的蛋白質分子有1.8億個,但其中3D(三維)結構信息被徹底看清的僅約為0.1%。截至2023年底,通過X射線晶體照相和冷凍電鏡等實驗方法獲得數據,蛋白質數據庫存有21萬個被實驗測定的三維蛋白結構。而在智能預測領域,2021年7月,谷歌旗下的DeepMind(深度思考)公司在《自然》雜志上宣布其人工智能程序AlphaFold 2預測出了98.5%的人類蛋白質結構,數據集中預測的所有氨基酸殘基中,有58%達到可信水平,其中更有36%達到高置信度。預測精度達到了原子級別,預計預測數量將達到人類已知蛋白質總數的一半(Jumper et al.,2021)。而在此之前,科學家們經過數十年的努力,也僅覆蓋了人類蛋白質序列中17% 的氨基酸殘基。2023年10月,DeepMind宣布新一代的 AlphaFold 模型可以預測蛋白質數據庫中幾乎所有的分子。

AlphaFold以前所未有的準確度和速度,使大規模結構預測的數據庫得以建立。AlphaFold 蛋白質結構數據庫現已發布2億多條高精度蛋白結構預測數據,包括人類、植物、細菌、動物等,并對外大規模免費開放,未來可以用于藥物發現或基礎研究。這將使生物學家能夠獲得幾乎任何蛋白質序列的預測結構模型,有助于將預測數據和實驗數據相結合,改變解決研究問題的方式,并加速研究項目的進展。暢想未來,以AlphaFold為靈感的工具,今后不僅能用來模擬單個蛋白和復合物,還能模擬整個細胞器,甚至是在單個蛋白分子水平上的細胞。蛋白質的數字化,不僅為合成新的物種、實現物種的數字化提供了寬闊的想象空間,也為人工智能在生命科學中的應用打下了更堅實的基礎,在更廣泛的自然界提供了更深刻的科學認識。

2.材料科學領域

基于數據的大模型也發揮了類似的革命性作用,在材料發現、性能預測和制造過程優化等方面,推動材料科學突破性發展。長期以來,新材料是通過實驗、理論或計算來發現的,研發新材料一直面臨高成本、低效率的難題。2023年11月,DeepMind在《自然》上發表論文,表示通過深度學習、計算機視覺、大數據等,開發了用于材料發現的圖神經網絡模型GNoME。研究團隊通過GNoME快速發現了220萬個新的材料晶體結構,其中很多結構是人類預測和公式難以發現的,相較于傳統的材料開發方法,效率提高了10倍。GNoME可以看作材料發現界的AlphaFold模型,GNoME發現的材料越多,整個模型的能力就越強,而整個訓練流程全部由人工智能自動完成。超大規模的訓練數據集是訓練GNoME的關鍵,包括公開數據庫、迭代計算以及模型生成,GNoME的訓練數據總量超過1億組,涵蓋100多萬種組成,是目前最大的計算材料數據集(Merchant et al.,2023)。

在材料預測方面,以2004年被提出的高熵合金(HEA)為例,因其革命性的設計理念以及特殊的物理、化學和力學性能,受到了全球性的研究與關注。高熵合金由多種占比相近的金屬元素構成,相比傳統合金具有很多獨特的性質,例如很好的耐高溫性。但是高熵合金往往很容易氧化,因此需要通過大量實驗尋找具有耐氧化能力的高熵合金。這類耐高溫、耐氧化材料在航空航天、核反應堆、化工設備等領域具有廣泛而重要的用途。2022年,得克薩斯農工大學與美國埃姆斯國家實驗室的研究人員聯合開發了一個人工智能框架,可以預測能夠承受極端高溫和氧化環境的高熵合金,顯著減少了實驗分析的數量,節約了時間和成本。該框架結合計算熱力學、機器學習和量子力學,能夠定量預測任意化學成分的高熵合金的氧化情況,將計算篩選合金所需的時間從幾年縮短至幾分鐘。根據預測結果,可以篩選出不滿足要求的合金,為科學家提供優化設計的寶貴信息。

2022年,德國馬克斯·普朗克鋼鐵研究所的學者在《科學》發表論文,提出了一種基于使用機器學習技術,利用概率模型和人工神經網絡的方法來加速對高熵合金的發現。通過主動學習策略,實現了基于小數據集在幾乎無限的成分空間中加速高熵合金的設計,極大地提高了高熵合金的設計效率,并成功地設計了多種新型高熵合金。

3.能源科學領域

以數據作為物理世界運營和優化的基礎,人工智能幫助管理物理世界最為典型的案例,是近期美國在核聚變領域取得的最新突破。長期以來,核聚變面臨的問題是其產出的電量小于投入的電量。筆者(朱民)當年在普林斯頓大學讀書的時候,當地有一套20世紀80年代美國和蘇聯合建的核聚變裝置,每當這個裝置做實驗時,整個小鎮就會停電。這樣的實驗,做了幾十年都沒有進展。2022年12月,美國能源部宣布,勞倫斯·利弗莫爾國家實驗室的科學家已經設計出一種可控核聚變反應,該反應產生的能量超過了所消耗的能量。這是數十年來人類尋找產生清潔和無廢料核電方法過程中的一個里程碑式的成就。2023年7月,這些科學家成功重現了“核聚變點火”突破,第二次在可控核聚變實驗中實現了“凈能量增益”。

可控核聚變發電的主流方案包括采用慣性約束和磁約束兩種。勞倫斯·利弗莫爾國家實驗室的“國家點火設施”,是采用慣性約束核聚變方案,而磁約束則大多使用托卡馬克裝置(一種可以容納核聚變反應的環形容器),也是很有希望實現的方案。采用磁約束方案的核聚變需要突破的一個核心功能是,在托卡馬克中用磁場線圈限制等離子體粒子,使等離子體達到聚變所需的條件。聚變能科學家認為,托卡馬克是未來聚變發電廠的主要等離子體約束裝置??刂坪图s束這種等離子體的方法,就是核聚變邁向成功的關鍵,也將是人類社會未來清潔能源的源泉??勺灾骺刂频入x子體的人工智能,一旦學會如何控制和改變虛擬反應堆內等離子體的形狀,就能自動控制托卡馬克中的磁體而無須任何額外的微調,其結果就是將帶來核聚變技術的重大突破。而美國的目標是通過核聚變,讓每度電的成本降至1美分。如果能達到這個標準,那么當今全球能源格局將徹底改變(朱民,2023)。

數據支持強化學習是最新核聚變實驗的核心部分。2022年,DeepMind與瑞士洛桑聯邦理工學院合作,利用深度強化學習算法控制核聚變反應堆內過熱的等離子體,取得了成功,研究論文刊登在《自然》雜志上。他們開發了世界上第一個深度強化學習人工智能系統,可以在模擬環境和真正的核聚變裝置(托卡馬克)中實現對等離子體的自主控制。該系統利用人工智能控制來幫助調整可變配置托卡馬克的電磁線圈,它的靈活性也能用于世界上最大的國際熱核聚變實驗堆。核聚變要求在托卡馬克裝置中約束極其高溫的等離子體足夠長的時間,但是等離子體很不穩定,當它們碰到托卡馬克裝置的內壁時就會丟失熱量,因此,要讓等離子體達到穩定,電磁線圈需要以每秒數千次的頻率實施實時反饋控制。以數據為支持的人工智能的發展正突破傳統科學實驗的邊界,加速了通往聚變能量的漫長旅程,提供了探索接近極限的可能性。

4.電子工程與計算機科學領域

基于數據的大模型在人工智能算法的發展中發揮著關鍵作用。這些大模型,如深度神經網絡,是大數據時代研究的核心工具,它們在處理大量數據和執行復雜任務方面表現出色。

數據驅動的人工智能算法依賴于大量數據來訓練模型,以便模型能夠學習和推斷出數據中的模式與關系。知識圖譜構建和機器學習算法是這些模型在領域內的典型應用。知識圖譜是一種基于圖的數據庫,可以存儲并管理大量的實體和關系,在2012年谷歌首次提出后快速發展成為一種新穎的管理海量信息的方式。將知識圖譜中的實體和關系表示為向量,可以進行高效的信息檢索和數據處理。通過數據整合、數據分析和數據預測等流程,知識圖譜可以幫助機器理解世界,提高人工智能模型的性能,在搜索引擎、智能客服、智能推薦、數據挖掘、金融風控等場景中發揮出數據驅動決策的廣泛作用。

機器學習通過使用數據或數據集幫助建立模型來做出決策,在機器學習的過程中,數據起著至關重要的作用。由機器學習驅動的人工智能程序的效率取決于輸入算法代碼的訓練數據的質量,不準確的數據集也會降低輸出的性能。在金融、醫療、能源生產、汽車、航空航天等多個領域,機器學習算法正在幫助企業發現投資機會、處理欺詐、提高效率等。隨著數據量的持續增長和對可變數據需求的進一步攀升,預計在未來幾年,將有越來越多的任務可以由機器學習算法驅動的大模型來執行。

從總體趨勢上看,以數據為中心的人工智能擁有巨大的能量和潛力。2022年,人工智能專家、斯坦福大學教授吳恩達在接受《IEEE頻譜》的采訪時表示,以模型為中心無法有效助力人工智能落地。人工智能在過去10年中最大的轉變是向深度學習轉變,此后10年將向以數據為中心轉變,形成以數據為中心的人工智能。如果將人工智能視為一個有移動部件的系統,那么就應該保持模型的相對固定,專注于高質量的數據來微調模型,而不是繼續推動模型的邊際改進。讓每家機構訓練各自的定制人工智能模型是不現實的,隨著神經網絡架構的成熟,許多實際應用的瓶頸將是“如何獲取、開發所需要的數據”,因此,數據比模型更為重要。

三、人工智能助推社會生產效率提升、產業結構升級

人工智能以機器學習、自然語言處理和深度學習等前沿技術為核心,正以前所未有的速度影響和滲透到社會各行各業,通過生產方式的轉變不斷推動制造業、交通運輸業、醫療健康業、金融業、教育業等領域的重大變革與產業升級。人工智能將引領新一輪科技革命和產業變革,促進產業的數字化、智能化和綠色化轉型,重塑面向智能時代的產業新生態。

現有研究論證了人工智能通過優化要素配置與使用效率、提高生產效率、改善產品質量、降低運營成本等作用機制,對產業結構轉型升級產生了積極影響(耿子恒等,2021),全球人工智能產業規模將進入高速增長期(譚鐵牛,2019)。2018年麥肯錫公司的研究報告預測,到2030年,約70%的公司將采用至少一種形式的人工智能,人工智能新增經濟規模將達到13萬億美元。從三大產業來看,在農業領域,人工智能賦能生產工具改造、農業生產技術實施以及農業管理水平提升;在制造業領域,人工智能顯著提高了制造業的生產效率、產品質量和全要素生產率;在服務業領域,醫療、金融、法律、教育、物流等行業的人工智能產品正在潛移默化地改變著人類的生產生活,同時對傳統服務業進行改造升級。

人工智能賦能農業發展,產生了精準農業、精準養殖等智慧農業新模式,并在全球范圍廣泛應用和推廣。精準農業是結合信息技術與現代農業技術的新型農業生產方式,標志著農業生產從傳統的經驗判斷轉向科學決策和精準管理,推動農業現代化與智能化發展,其核心在于通過3S[GPS(全球定位系統)、GIS(地理信息系統)、RS(遙感系統)]技術和自動化技術的綜合應用,對農業生產過程中的各種因素進行精確監測和控制。將人工智能算法應用于農業生產,能夠解決作物生長、病蟲害識別、產量預測等復雜問題。機器視覺技術可以自動識別作物病蟲害和生長狀況,深度學習算法則能夠預測作物產量和市場需求變化。人工智能的應用為農業生產者提供了精準、高效的決策支持,降低了人力成本,并提高了農業生產的技術水平。

在制造業領域,人工智能借助工業互聯網,有望從三個維度實現工業企業的數字化。工業互聯網平臺下連萬物、上接應用,是海量數據匯聚的樞紐。以工業互聯網為中心的數據流,第一個維度是打通工廠平臺架構,可以把制造業在生產層面的實體制造層,一直到云平臺的運營技術層、信息技術層垂直打通,實現物理世界和信息世界的交互融合,這在以前是很難做到的。第二個維度是打通供應鏈管理,從原材料供應商到制造商、零售商,再到消費者,可以真正實現從銷售到零售的轉變,以及產品的動態零庫存。與此同時,在這兩個維度之外的第三個維度,是打通產品生命周期,在生產的過程中,數據不斷迭代產生新的產品設計和工藝設計,再進行加工制造,并提供后期服務。這就形成了一個以數據為基礎的完整的數字化過程。

在服務業,大模型與數據廣泛地結合產生新的服務生態,正深入所有垂直行業,提升消費者體驗,逐漸改變人們的社會生活結構。ChatGPT通過瀏覽器插件讓更多的數據、行業知識、第三方應用和開發者加入進來,把智能和網絡廣泛地連接起來,在醫療保健、金融服務、教育、電子商務等領域提供應用,超級應用生態正在形成。2024年1月,美國人工智能公司OpenAI宣布GPT Store(GPT應用商店)正式上線,它類似于蘋果手機應用商店App Store,但GPT Store里的應用程序不需要下載即可成為人工智能助手,統稱為“GPTs”(自定義GPT),上線當日提供的公共GPTs數量已超過300萬個。當構建出一個類似于手機應用商店的GPT生態后,OpenAI就能成為人工智能時代的平臺公司。平臺的數據和GPT產生的數據不斷交互、重疊、學習、反饋,使新的數據服務生態越來越便捷和高效。

以醫療行業為例,人工智能的廣泛應用涵蓋了診斷治療、健康管理、藥物研發、運營營銷等方面,極大地提升了醫療服務的效率和質量。智慧醫療在人工智能、物聯網、大數據、5G(第五代移動通信技術)的支撐下,實現了患者與醫務人員、醫療機構、醫療設備之間的互動,達到了信息化、智能化的醫療方式。人工智能可應用于遠程醫療、精準醫療、智能醫療設備、智能影像識別、醫療機器人等眾多場景,如視網膜人工智能評估已成為監測心腦血管疾病、糖尿病、高血壓、貧血等風險的新手段;在智能診療的應用中,由IBM(國際商業機器公司)打造的人工智能系統IBM Watson已成為最成熟的應用,可以用于乳腺癌、肺癌、皮膚癌等多種癌癥的診斷和治療;在診斷效率上,哈佛大學公共衛生學院的研究表明,使用人工智能進行診斷或將降低50%的治療成本,健康結果改善幅度提高40%。未來,隨著技術的不斷成熟和應用的深入,醫療行業發展預計將呈指數上升。

主站蜘蛛池模板: 沁阳市| 凤阳县| 濮阳市| 那曲县| 壶关县| 乌拉特后旗| 南投市| 合川市| 新源县| 延长县| 新蔡县| 安顺市| 晋中市| 油尖旺区| 靖江市| 乐东| 中方县| 兰西县| 仁化县| 梓潼县| 厦门市| 合作市| 沽源县| 宣化县| 嵩明县| 巍山| 马关县| 什邡市| 马山县| 泰来县| 琼中| 五大连池市| 喀什市| 宝应县| 深圳市| 吉木萨尔县| 礼泉县| 金溪县| 永宁县| 襄垣县| 祁门县|