- 圖解數據智能
- 張燕玲 許正軍 張軍編著
- 4972字
- 2023-08-04 19:10:51
本書導讀
一個半世紀前,狄更斯在其所著的《雙城記》中有一句名言:這是一個最好的時代,也是一個最壞的時代;這是一個智慧的年代,也是一個愚蠢的年代;這是一個信任的時代,也是一個懷疑的時代。在新一輪科技革命和產業變革的今天,這句名言仍然應景。
人類社會的發展史,也是一部科技革命和產業變革的發展史。18世紀60年代到19世紀中期,蒸汽輪機的發明和使用,標志著人類社會開始進入蒸汽時代(第一次工業革命);19世紀下半葉到20世紀初,電力的發明和使用,標志著人類社會開始進入電氣時代(第二次工業革命);20世紀后半期,計算機及信息技術的發展,標志著人類社會開始進入信息時代(第三次工業革命);近年來,隨著大數據、云計算、人工智能、5G、物聯網、區塊鏈等新一代信息技術的發展與應用,人類社會開始進入人工智能時代。
人工智能時代以"人工智能"的發展與應用為主要驅動力之一。
人工智能
世人對人工智能(artificial intelligence,AI)的認知,大多是從2016年3月谷歌的阿爾法圍棋(AlphaGo)擊敗圍棋九段李世石開始的。短短的幾年中,人工智能不斷地進入一個又一個領域,改變著我們的工作和生活。如今,智能推薦、智能客服、智能搜索、智能導航、智能問診、無人駕駛、無人機等,人工智能的應用場景俯拾皆是。
事實上,早在20世紀50年代,人工智能就開始發展萌芽了。
1950年,英國數學家、邏輯學家艾倫·圖靈(Alan Turing)發表了一篇劃時代的論文《計算機與智能》,文中提出了著名的圖靈測試(Turing test)構想,即如果一臺機器能夠與人類展開對話(通過電傳設備)而不被辨別出其機器身份,那么稱這臺機器具有智能;隨后,圖靈又發表了論文《機器能思考嗎》。兩篇劃時代的論文及后來的圖靈測試,強有力地證明了一個判斷,那就是機器具有智能的可能性,并對其后的機器智能發展做了大膽預測。正因為如此,艾倫·圖靈被稱為"人工智能之父"。
1956年8月,在美國達特茅斯學院,約翰·麥卡錫(John McCarthy,LISP語言創始人)、馬文·閔斯基(Marvin Minsky,人工智能與認知學專家)、克勞德·香農(Claude Shannon,信息論創始人)、艾倫·紐厄爾(Allen Newell,計算機科學家)、赫伯特·西蒙(Herbert Simon,諾貝爾經濟學獎得主)等科學家聚在一起,討論是否可用機器來模仿人類學習以及其他方面的智能等問題。兩個月的討論雖然沒能達成共識,但他們卻為會議內容起了一個名字——人工智能。
時至今日,無論是學界還是業界,關于人工智能并沒有一個統一的定義,但大體上形成了以下共識:人工智能是計算機科學的一個廣泛分支,試圖讓機器模擬人類的智能,以構建通常需要人類智能才能夠實施執行任務的智能機器。
其中,人工智能算法模型的訓練和建立是核心。由于人工智能算法模型的訓練和建立取決于算量(數據)、算法和算力的共同發展,因此時隔六十年后,人工智能才開始為大眾所認知。
人工智能算法模型
人工智能算法模型的主要工作是將經驗模型化、模型算法化、算法代碼化和代碼軟件化。其中最為關鍵的兩步是"經驗模型化"和"模型算法化"。
所謂"經驗模型化",就是根據事物變化的歷史經驗總結出規律性的邏輯機理。例如,我們可以根據某一商品的歷史銷售數據,總結出某一地區該商品季節性的需求變化規律;可以根據該商品在不同地區的歷史銷售數據,分析不同地區對該商品的需求變化差異;進而分析出影響這些需求變化規律和需求變化差異的主要因素有哪些、不同因素的影響程度等,并可對未來的需求進行預測,以調整銷售計劃,或根據這些經驗,調整或改進針對不同地區、不同季節的產品功能(即對地區或季節進行畫像,以調整產品策略,進行精準營銷)。前文提到的智能推薦、智能客服、智能搜索、智能導航、智能問診,大都是基于這樣的思路,只不過所依賴的"歷史經驗"來自多方面,如來自某一類群體、某一類行業,甚至來自整個社會的"歷史經驗"總結。顯然,這些"歷史經驗"需要表示成計算機可以處理的數據格式,這些數據就是"大數據"。
根據常識,在將經驗總結成模型時,所依賴的數據量越大,模型就會越準確。反過來,如果想得到更為準確的經驗模型,就需要收集更多的數據,即需要大數據進行支持。業界流行一句話:大數據是人工智能算法模型的"原料"。通常,也把大數據稱為算量。
近年來,隨著計算機通信技術和互聯網技術的飛速發展,大數據得到前所未有的發展,包括大數據的產生、采集、存儲和計算等大數據技術、大數據產業以及大數據思維(詳見第1章)。大數據的發展為人工智能算法模型的構建提供了必要的原料,是人工智能發展的先決條件。
有了大數據,人工智能便有了原料。但要從這些原料中總結"經驗"(即知識),并且將這些"經驗"用于實際應用(如分析預測或輔助決策,類似前文提到的銷售案例),離不開"模型算法化"這一關鍵步驟。
通常,大數據本身(原始數據)是沒有用的,必須經過一定的處理后才能派上用場。這些數據來自多源,種類繁多,錯綜復雜,既有結構化數據(如關系型數據庫與表格),也有非結構化數據(如Word、PDF、PPT、Excel,各種格式的圖片、視頻等),還有半結構化數據(如日志文件、XML文檔、JSON文檔、Email等)。雖然這些數據攜帶很多信息,但需要經過一定的梳理和清洗,才能形成有用的"信息"(information),這些信息里包含多種規律,需要借助智能算法進行挖掘才能提煉成"知識"(knowledge),然后需要把這些知識應用于問題解決和決策支持等實踐,這便產生了"智慧"(intelligence)。
因此,所謂"模型算法化"就是利用大數據技術從各類數據中提煉、抽取出不同維度特征(即形成結構化數據,詳見第1章特征工程),并建立這些不同維度特征與"經驗"(即規律知識)之間的關系表達式(通常為數據公式)。通常這一過程分為兩個步驟:使用一部分大數據進行"訓練",即對一部分歷史大數據進行"擬合",初步得到一個關系表達式;再使用另一部分大數據進行"測試",以修正和完善該關系表達式。直到測試結果達到一定的性能要求(如準確率達到95%以上),就可將這個關系表達式固定下來,再通過后續的"算法代碼化""代碼軟件化"過程將模型嵌入實際應用中,從而讓機器(計算機軟件或計算機硬件)具有類似人腦的智能并代替人們進行預測或決策。可見,從大數據中尋找"關系表達式"是"模型算法化"的核心工程。
人工智能算法中,大部分的關系表達式是可以表示成數學公式形式的。其中,有眾多現存的經典機器學習算法(也稱為傳統機器學習算法)可供參考使用,如常見的支持向量機、人工神經網絡、邏輯回歸、樸素貝葉斯、決策樹、K-均值、K-最近鄰、隨機森林、線性回歸和降維等,或用于解決分類問題,或用于解決回歸問題(詳見第2章機器學習)。對于較為復雜的系統(如數據特征維度非常多的情況),可將上述經典算法進行集成組合,構成集成算法模型;也可采用基于神經網絡模型的深度學習算法進行訓練與測試,這取決于實際應用效果。近年來,深度學習逐漸發展成為機器學習中的一個重要分支。
算力及其發展
算力是人工智能的三要素之一,已成為人工智能產業化進一步發展的關鍵。算力,就是計算能力,算力的大小代表對數字化信息處理(信息的獲取、存儲、計算和傳輸)能力的強弱。從原始社會的手動式計算到古代的機械式計算、近現代的電子計算,再到如今的數字計算,算力代表著人類對數據的處理能力,也代表著人類智慧的發展水平。
大數據的飛速發展對算力提出了較高的要求。早在2017年,國際數據公司IDC公布的《數據時代2025》報告顯示,2025年人類的大數據量將達到163ZB; 2020年國際消費類電子產品展覽會上,英特爾預測2025年全球數據量將達175ZB(1ZB=1024EB, 1EB=1024PB, 1PB=1024TB, 1TB=1024GB),相當于65億年時長的高清視頻內容。而據IDC統計,近10年來全球算力增長明顯滯后于數據增長,也就是說,全球算力的需求每3.5個月就會翻一倍,遠遠超過了當前算力的增長速度。
多年來,CPU(center processing unit,中央處理單元/器)一直是大多數計算機中唯一的計算單元。盡管"摩爾定律"(即每18個月在價格不變的情況下,計算機硬件性能提高一倍)一直都存在,但受制于CPU固有的計算模式,CPU硬件性能的提升速度遠遠趕不上數據增長的速度。
為了應對這種困局,人們在物理上將上千臺、上萬臺甚至上百萬臺計算機"集群"起來,采用分布式計算,形成了"數據中心"解決方案。接著,人們采用虛擬化技術,把這些物理集群的計算機資源(包括存儲、網絡和計算等資源)在邏輯上進行"切片""切時"以應對各種動態變化需求,這就相對地讓分布式計算能力得以倍增。更進一步,將虛擬化技術設計成可根據業務需求進行集群資源自動調度,這便是"云計算"的背后機理。
大數據的增長實在太快,云計算仍然存在瓶頸。為此,"端邊云"計算思路應運而生。它將計算任務分解到數據產生的源端、數據采集的邊緣,以緩解云計算的壓力。因為實際應用中,盡管未來接入5G網絡的物聯網設備產生的數據量會呈指數級增長,但大多數數據沒有應用價值,這樣就可以通過端邊計算過濾掉。例如,麥肯錫公司的一項研究發現,一個海上石油鉆井平臺可從3萬個傳感器中產生數據,但只有不到1%的數據可用于做出決策。
同時,為了應對人工智能算法的時間復雜度,提高算法效率,可將各種加速計算,如圖形處理、人工智能、深度學習和大數據分析等應用專門分配給GPU(graphics processing unit,圖形處理單元/器)處理,以緩解CPU的計算壓力。無獨有偶,近兩年出現的DPU(data processing unit,數據處理單元/器),是繼CPU和GPU后的第三個計算單元,主要負責數據中心安全、網絡、存儲等網絡基礎的運行管理計算,高性能計算,以及人工智能等專用任務的加速處理。CPU、GPU和DPU分工協作,共同擔負起面向大數據時代的數據中心的計算任務。
"算力時代"已經到來。一方面,算力有望替代熱力、電力,成為拉動數字經濟向前發展的新動能、新引擎;另一方面,算力正在成為影響國家綜合實力和國際話語權的關鍵要素,國與國的核心競爭力正在聚焦于以計算速度、計算方法、通信能力、存儲能力為代表的算力,未來誰掌握先進的算力,誰就掌握了發展的主動權。基于此,2022年2月17日,國家發改委、中央網信辦、工業和信息化部、國家能源局聯合印發通知,同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏等啟動國家算力樞紐節點的建設,并規劃了10個國家數據中心集群。至此,全國一體化大數據中心體系完成總體布局設計,"東數西算"工程正式全面啟動。
人工智能的展望
如今,人們的生活、學習、工作等都融合在一個以智能手機為中心的生態體系之中,移動支付、移動社交、移動辦公、移動購物等,不一而足。國家和政府借助大數據、云計算、5G網絡、區塊鏈等技術催生出"數字政府"等新的政務服務模式("一網通辦")和社會治理模式("一網統管");企業的生產管理和市場營銷開始擁抱各種數據技術,通過工業互聯網和產業互聯網的新業態、新模式加速數字化轉型,以促進我國"數字經濟"的發展;"數字民生"讓人們充分享受智慧醫療、智慧家居、智慧交通、智慧出行帶來的便利;"智慧城市"和"城市大腦"讓百姓生活在一個人工智能無處不在的智慧社區、智慧城市之中;無人機、GPS定位等已應用于智慧農業、智慧物流等各種場景之中……
在這一切的數字化技術應用過程中,人工智能如影隨形。
繼2015年8月國務院印發《促進大數據發展行動綱要》(國發〔2015〕50號)后,2017年7月,國務院印發了《新一代人工智能發展規劃》(國發〔2017〕35號)。我國從此開啟了一個"數智化"時代。
人工智能已成為國際競爭的新焦點和經濟發展的新引擎。人工智能在給社會建設帶來新機遇的同時,因其發展的不確定性也給社會帶來了新挑戰。人工智能是影響面極廣的顛覆性技術,可能帶來改變就業結構、沖擊法律與社會倫理、侵犯個人隱私、挑戰國際關系準則等問題,將對政府管理、經濟安全、社會穩定乃至全球治理產生深遠影響。在大力發展人工智能的同時,必須高度重視因此帶來的安全風險挑戰,加強前瞻預防與約束引導,最大限度地降低風險,確保人工智能安全、可靠、可控地發展。需要在《中華人民共和國個人信息保護法》《中華人民共和國數據安全法》基礎上,進一步制定"算法問責法案",明確算法開發者資格評估(包括開發者的社會信用、價值觀和社會責任,流程管控、安全制度以及專業程度)、技術方案評估(如算法模型的人類倫理規范、算法設計的可解釋性等)、風險影響評估(如數據和信息安全影響、算法責任等)、透明監管條例(能穿透"算法歧視"和"算法黑箱"進行審查)等具體流程和核心要點,以及各主體的法律責任、社會義務和法律界限。同時需要依法建立多層級監管體系,加強各個環節的透明監管。