官术网_书友最值得收藏!

第一部分 經典人工智能基礎

第1章 緒論

1956年,在達特茅斯會議上,約翰·麥卡錫(John McCarthy)等學者歷史性地引入了“人工智能”(Artificial Intelligence,AI)這一開創性概念,標志著人工智能學科正式誕生,成為探索智能機器領域的嶄新起點。隨后,隨著計算機科學、數學、心理學、哲學等多個學科的深度交叉與融合,人工智能逐漸發展成為一門獨立的、充滿活力的學科體系。

經歷了曲折的發展歷程,進入21世紀后,人工智能領域迎來了前所未有的飛躍。深度學習技術的突破、大數據技術的廣泛應用以及大模型技術的崛起,共同推動了人工智能的高速發展。這些技術的融合與創新不僅極大拓展了人工智能的應用邊界,還深刻改變了人類社會的方方面面,引領人們步入了智能化、自動化、高效化的“智能時代”。

當下,人工智能的應用如同細雨潤物,已悄無聲息地融入了日常生活的方方面面。從網易云音樂根據個人喜好精心打造的個性化音樂推送,到小鵬汽車引領的安全智能自動駕駛新風尚;從《黑神話:悟空》這款沉浸式游戲所帶來的前所未有的震撼體驗,到招商銀行小招助手等金融服務智能體無微不至的陪伴;從小米智能家居系統編織的互聯生活網,讓家中的每一件設備都緊密相連,到京東京小智智能客服高效處理海量用戶咨詢,展現了高效與人性化并存的服務新境界;再到平安好醫生利用AI技術提供的便捷線上智能問診服務,以及高德地圖憑借智能算法為用戶規劃最佳出行路徑,無不彰顯著人工智能正以無微不至的關懷,顯著提升著人們的生活質量與工作效率,讓未來生活更加美好可期。

這些僅僅是人工智能廣袤應用領域的璀璨一隅。隨著技術的持續演進,AI正展現出無限潛力,將會在更多維度上重塑世界。尤其近年來,隨著大模型和生成式AI技術的飛速發展,人工智能已崛起為新質生產力。各行各業正從簡單的“+AI”模式,即在現有業務中融入人工智能技術,逐步轉變為更加深入的“AI+”模式,即以AI為核心,引領和驅動業務的全面創新及升級。這一趨勢勢不可擋,將持續推動社會各個領域的變革與發展。

2024年,我國政府工作報告首次提出實施“人工智能+”行動,旨在整合資源,匯聚各方力量,打造具有全球競爭力的數字產業集群,深入推進人工智能技術在各行業的應用與融合,推動我國經濟邁向高質量發展的新階段。同年7月,備受全球矚目的世界人工智能大會(WAIC)在上海隆重舉行,大會以“工商促共享,以善治促善智”為主題,深入探討了人工智能技術的最新進展及其在各行業中的賦能作用。在此次大會上,具身智能成為焦點,尤其是人形機器人的應用備受關注。人形機器人不僅滿足了公眾對通用人工智能(AGI)的期待,還因其在多場景下作為提升生產力的直接物理媒介的潛力,引發了廣泛討論。

隨著具身機器人的驚艷亮相,生成式人工智能與機器人技術的完美結合開啟了新篇章。具身智能的崛起,充分展現了人工智能作為交叉學科的強大綜合性和前沿性,它融合了計算機科學、控制論、信息論、神經心理學及哲學等多個學科領域的智慧,不斷催生新思想、新觀念、新理論和新技術。然而,人工智能的應用遠不止于此。隨著各行各業對AI的需求不斷增長,人工智能與其他領域的深度融合變得尤為重要。在此大背景下,了解人工智能是什么,理解其背后的技術原理和壁壘,如何在不同領域中發揮作用,已經成為當今社會每個人都需要掌握的基本知識。

基于此,本章將介紹人工智能的基本概念、發展簡史、人工智能與大數據技術的關系、人工智能技術路線、人工智能與交叉應用等內容。通過對這些內容的梳理,本章以期為讀者提供一個全面而深入的認識,使其能夠全面理解人工智能在當今社會中充當的關鍵角色,從而為后續章節的深入學習打下堅實基礎。

1.1 人工智能基本概念

人工智能歷經60余載,演進歷程可粗略劃分為三大階段:首階段(1956—1976年),聚焦于邏輯推理,構建了AI的初步框架;次階段(1976—2006年),以專家系統為核心,展現了AI在特定領域的專業能力;自2006年起,則步入了認知智能的新時代,強調數據驅動與自主學習,這一階段的時長雖未知,卻深刻重塑了技術生態。

隨著大數據的爆發、算力的提升以及算法的創新,AI實現了從簡單規則系統向能夠處理復雜任務、具備自我學習和適應能力的智能系統的飛躍。2016年3月,谷歌DeepMind研發的AlphaGo在圍棋人機大戰中擊敗韓國職業九段棋手李世石,“人工智能”一詞正式進入普通民眾的視野并被逐漸熟知。至此,AI從科研輔助工具成功躍升為實用功能型利器,研究模式也從學術引領轉向商業驅動,AI開始真正地解決實際問題,廣泛滲透于各應用領域。在學術界,AI領域的學術論文數量激增,研究深度與廣度不斷拓展,新的理論與方法層出不窮;在投資界,AI創業公司如雨后春筍般涌現,吸引了全球資本的廣泛關注與投入,推動了AI產業的蓬勃發展;在職場,AI崗位需求急劇增長,成了眾多求職者追逐的熱門方向,AI人才成為市場競相爭奪的稀缺資源。此外,AI開源軟件(如TensorFlow、scikit-learn等)的興起也為整個行業注入了新的活力。開源平臺與框架的普及降低了AI技術的門檻,促進了技術的交流與共享,加速了AI技術的普及與創新。通過開源社區的合作與貢獻,AI技術得以更快地迭代與優化,為各行各業的數字化轉型提供了強有力的支撐。然而,在這股AI熱潮之下,我們不禁要問:這火熱的AI究竟是什么?AI火熱的驅動因素又是什么?

1.1.1 人工智能的定義

大多數人對人工智能的印象往往來自電影,而電影大多把人工智能的形象塑造成機器人,然而人工智能是否等同于機器人?其實不盡然,機器人只是人工智能的一種載體,而人工智能是一門領域技術,因此兩者并不等同,那么到底什么是人工智能?與其他新興學科相似,為人工智能提供一個統一且精確的定義是一項具有挑戰性的任務。鑒于其融合了“人工”與“智能”兩個核心概念,為了更深入地理解人工智能,我們可以先分別探討“人工”和“智能”的含義。

人工”一詞的含義相對直觀,它主要強調了這種智能形態的起源與本質,即它是人類智慧與技術相結合的產物,明確區分了源自人類設計、干預的產物與自然界自然演化的成果。在生態系統中,城市公園、人工濕地等是人類智慧對自然環境的重塑與補充,與珊瑚礁、紅樹林等天然生態系統形成鮮明對比。同樣地,當談論人工智能(AI)時,不論稱之為機器智能或是計算機智能,都清晰地表明了其內含的“智能”是人類制造的,或是通過機器和計算機所表現出的一種智能模式。從本質上講,人工智能與自然智能存在顯著區別,它是一種通過人工手段模擬出來的人造智能。至少在可預見的未來,我們應如此詮釋它。

然而,對“智能”的定義則存在多種理論觀點。思維理論認為,智能源于大腦的思維活動,知識是這些活動的產物,通過研究思維的規律和方法可以洞察智能的本質;知識閾值理論認為,智能行為取決于知識的豐富程度及其普遍適用性,它體現在從龐大的信息庫中尋找滿意的解決方案的能力;而進化理論強調,智能是復雜系統所展現的一種特性,系統的整體行為及其與環境的互動共同塑造了智能。

綜上所述,我們可以將智能簡潔地定義為知識和智力的結合。其中,知識構成了一切智能行為的基礎,而智力則體現在獲取知識并運用這些知識解決問題的能力上。基于此,我們可以進一步理解何為“人工智能”。人類的自然智能(人類智能)伴隨著人類活動處處時時存在。人類的許多活動,如下棋、競技、解算題、猜謎語、進行討論、編制計劃和編寫計算機程序,甚至駕駛汽車和騎自行車等,都需要“智能”。如果機器能夠執行這種任務,就可以認為機器已具備一定程度的“人工智能”。

人工智能是一個涵蓋多個學科且迅速發展的領域,不同發展階段的專家常常基于各自的專業背景和研究視角來界定人工智能。這種多樣化的觀點造成了人工智能定義的不統一,目前尚缺乏一個被廣泛認可的統一標準定義。這一現象不僅體現了人工智能的復雜性和跨學科特點,同時也展示了其在不同應用場景中的靈活性和多樣性。接下來,我們將依據專業人士的見解,對“人工智能”的相關定義進行介紹。

定義1.1 人工智能(學科)

人工智能(學科)是一新興學科,以計算機科學為核心,融合了計算機、心理學、哲學等多個學科領域的知識。它致力于研究、開發能夠模擬、延伸和擴展人類智能的理論、方法、技術及應用系統,以期深入理解智能的本質,并創造出能夠模仿人類智能反應方式的新型智能機器。

定義1.2 人工智能(能力)

人工智能(能力)是指智能機器所執行的通常與人類智能有關的智能行為,如判斷、推理、證明、識別、感知、理解、通信、設計、思考、規劃、學習和問題求解等思維活動。

定義1.3 人工智能(技術)

人工智能(技術)是通過計算機程序或機器來模擬、實現人類智能的技術和方法。它利用機器學習、深度學習等算法,使計算機具有感知、理解、判斷、推理、學習、識別、生成、交互等類人智能的能力。

為了讓讀者對人工智能的定義能有更深刻的理解,下面介紹其他幾種定義。

定義1.4 尼爾森——“人工智能是關于知識的科學”。所謂“知識的科學”,就是研究知識的表示、知識的獲取和知識的運用。

這一定義強調了知識在人工智能中的核心地位,以及研究知識表示、獲取和運用的重要性。所謂“知識的科學”,不僅涵蓋了知識的各個方面,還涉及了如何通過算法和模型來模擬人類的學習和推理過程,以實現機器的智能化。其觀點更關注于如何讓機器在理解世界、處理信息和解決問題方面展現出類似于人類的智慧和能力。

定義1.5 斯圖爾特·羅素(Stuart Russell)與彼得·諾維格(Peter Norvig)在他們的著作《人工智能:一種現代的方法》中,將人工智能定義為“智能體的研究與設計,這些智能體能夠感知其環境,并據此采取行動以最大化其成功的可能性”。

這一定義強調了AI系統的感知能力、決策能力和優化目標的重要性。

定義1.6 人工智能是能夠執行通常需要人類智能的任務,諸如視覺感知、語音識別、決策和語言翻譯的計算機系統理論和開發(谷歌在2017年對人工智能的定義)。

這一定義詳盡且深刻地揭示了人工智能的本質范圍,同時突出了它在廣泛領域內所展現的關鍵作用與巨大的發展潛力。它不僅涵蓋了AI在模擬人類智能任務方面的卓越能力,如視覺識別、語言處理及復雜決策等,還強調了這些技術如何推動并變革各行各業,預示著未來無限的可能性與機遇。

1.1.2 人工智能三大級別

從定義上看,人工智能其實就是利用計算機來模擬人類智能行為的一門學科。但是,不同時代背景和應用場景下的AI,其智能程度和能力范圍不盡相同。AI一般被劃分成三大級別(見圖1-1):弱人工智能(Artificial Narrow Intelligence,ANI)、強人工智能(Artificial General Intelligence,AGI)和超人工智能(Artificial Super Intelligence,ASI)。其中,弱人工智能和強人工智能的概念是由約翰·塞爾在其1984年出版的《心、腦與科學》一書中提出的。塞爾認為,弱人工智能能夠模擬人類的智能行為,但并不具備真正的智能和自我意識;而強人工智能則被認為能夠像人類一樣思考和行動,甚至可能超越人類的智能。這一理論框架為后續關于人工智能的研究和發展提供了重要的理論基礎。而關于“超人工智能”的概念,雖然沒有一個明確的提出者,但它是基于強人工智能的概念進一步延伸的,指的是在智能上超越人類的人工智能系統。這一概念反映了對于未來人工智能可能達到的能力的一種展望和探討。

圖1-1 人工智能三大級別:弱人工智能、強人工智能、超人工智能

1.弱人工智能

弱人工智能是一種專注于解決特定任務的人工智能系統,是僅能感知外界信號并做出反應的“感知智能”。這類系統通常具備高度的專業性和針對性,能夠在某一領域內表現出卓越的能力,但一旦超出其設計范圍,能力就會大打折扣,無法跨領域執行任務。例如熟知的AlphaGo(阿爾法狗),這款由谷歌DeepMind團隊開發的人工智能系統,在圍棋領域達到了頂尖水平,甚至能夠戰勝人類世界冠軍。然而,盡管它在圍棋方面的能力超群,但如果問它關于天氣、歷史或其他領域的問題,它可能就無能為力了。

2.強人工智能

與弱人工智能專注于特定領域不同,強人工智能是指能夠理解、學習、應用各種知識和技能的人工智能系統。該類人工智能系統具備類似于人類的廣泛認知能力,不僅能夠執行特定任務,還具備自主學習、自主決策及推理創新的能力。這類系統通常被認為是未來AI發展的重要方向之一。但目前,強人工智能仍處于理論研究階段,尚未實現,仍需突破現有技術的諸多瓶頸。

3.超人工智能

超人工智能是人工智能技術發展的終極目標,其致力于實現AI系統的智能水平遠超于人類。超人工智能不僅具有全面的知識和技術,還能在不同情境下進行優化和革新,甚至擁有情感和意識。從理論上而言,該類型人工智能能夠解決人類無法解決的問題,從而帶來前所未有的技術上的突破。然而,超人工智能的發展也引發了諸多爭議和擔憂。一些人擔心超人工智能可能會威脅到人類的生存和發展,甚至可能導致人類文明的終結。因此,在推動超人工智能發展的同時,也需要認真思考如何確保其安全性和可控性。

雖然當前的研究和應用主要集中在弱人工智能領域,但強人工智能和超人工智能的潛力不可忽視。隨著技術的不斷進步和理論研究的深化,我們有理由相信,未來這些先進的AI系統將逐步進入人們的日常生活,為人類帶來更加便捷、高效、智能的生活方式。然而,我們也必須警惕這些技術可能引發的風險和挑戰,確保它們的發展始終在人們的掌控之中,服務于人類的整體利益。

1.1.3 人工智能的驅動因素

了解了何為AI,接下來了解下AI為何會持續火熱。AI持續火熱的驅動力主要來自技術本身的質的飛躍和基礎設施的完善,包括數據,模型和算法,算力,開源框架、物聯網和大數據技術等基礎設施,而這些正是人工智能技術發展的基礎和核心推動力,共同構成了推動人工智能發展的“四駕馬車”(見圖1-2)。它們之間相互依存、相互促進,共同搭建起人工智能發展的堅實基礎,推動了技術的持續進步和應用領域的廣泛拓展。

圖1-2 推動人工智能發展的“四駕馬車”

1.高質量和大規模的海量數據——新時代的核心資源

高質量和大規模的海量數據,作為AI發展的基石,為技術提供了源源不斷的滋養。數據不僅是AI模型訓練的“食糧”,更是其不斷優化、自我進化的關鍵。隨著數據采集技術的不斷進步和互聯網應用的廣泛普及,數據資源日益豐富,為AI在各個領域的應用提供了無限可能。

2.模型和算法——技術進步的引擎

算法是AI技術進步的靈魂。近年來,算法領域取得了諸多重大突破,特別是深度學習、強化學習等技術的興起,為AI的發展開辟了新路徑。這些算法不僅提升了AI的感知、理解和決策能力,還推動了AI在圖像識別、語音識別、自然語言處理等領域的廣泛應用。同時,隨著研究的深入,新的算法和模型不斷涌現,為AI技術的持續發展注入了新的活力。

3.算力——AI高效運行的能源

算力,作為AI發展的基礎能源,其重要性不言而喻。近年來,計算硬件領域的突破,特別是英偉達GPU、寒武紀、中科海光等高性能計算芯片的涌現,極大地提升了AI的計算能力。這些硬件的升級,不僅突破了傳統計算的瓶頸,更為AI的高效運行注入了強大動力,使得更復雜的算法和模型得以實現。當然除了硬件,還有軟件層面的算力優化提升,通過算法優化、并行計算、分布式計算等手段,可以充分利用現有硬件資源,提高計算效率,使得在大數據集上快速運行成為可能。

4.開源框架、物聯網和大數據技術等基礎設施——AI生態的基石

開源框架作為AI生態的重要組成部分,為技術的普及和應用提供了重要支持。TensorFlow、PyTorch等開源框架的興起,降低了AI技術的門檻,使得更多的開發者能夠參與到AI的研發中來。同時,這些框架還促進了技術的交流和共享,加速了AI技術的迭代和創新。物聯網和大數據技術則為AI的感知層和數據處理提供了強大支持。物聯網通過連接各種傳感器和設備,為AI提供了豐富的實時數據,增強了其感知和決策能力。而大數據技術則為海量數據的存儲、清洗、整合提供了技術保障,使得AI能夠更有效地利用這些數據資源,提升深度學習算法的性能。

1.2 人工智能發展簡史

人工智能的發展歷程波瀾壯闊,見證了從概念構想到現實應用的蛻變,以及從理論探索到技術突破的不斷進步。本節將通過回顧這一發展歷程,幫助讀者更深入地理解人工智能的本質與前景。

1.孕育

回溯歷史長河,人類對于“擬人智能”即人工智能的探索源遠流長。公元九世紀的華夏大地,便已誕生了能歌善舞的“人形舞姬”、報時的“機關人”等,這些無不彰顯著古代中國對人工智能的初步探索與嘗試。

隨著科學技術的不斷進步,數理邏輯、自動機理論、控制論、信息論和系統論等學科的相繼創立,以及通用電子數字計算機的發明,為人工智能的誕生奠定了堅實的思想、理論和物質技術基礎。在人工智能的萌芽階段,兩大研究路徑并行不悖:一種路徑以美國神經生物學家W.McCulloch和Pitts為代表,他們通過建立神經元的數學模型,從神經心理學的角度探索智能的微觀結構;另一路徑則由英國數學家圖靈(Turing)引領,他提出了圖靈機的數學模型(通用圖靈機見圖1-3),不局限于機器與生物生命的結構相似性,而是聚焦于建立評估機器智能的準則,關注智能行為的實現。此外,1950年,圖靈在其論文中還通過“圖靈測試”(見圖1-4)提出了“機器能思維”的設想,不僅為人工智能下了定義,還論證了其存在的可能性,標志著人工智能雛形的基本形成及誕生條件的成熟。至此可見,人工智能的興起與發展并非偶然,而是科學技術持續進步的必然結果,是人類智慧與創造力不斷積累的結晶。

圖1-3 通用圖靈機

圖1-4 圖靈測試

2.開端

1956年的達特茅斯會議標志著人工智能作為一門新興學科的正式誕生。會議之后,人工智能領域迎來了一個短暫的黃金時期,其研究在多個方面取得了顯著進展,包括機器學習、定理證明、模式識別、問題求解以及人工智能語言等。在這一黃金時期,研究者們不再滿足于純粹的理論探討,而是開始致力于將人類的經驗、邏輯和已有事實融入實際的程序設計中。他們的目標是讓機器能夠模擬人類的推理和決策過程,從而表現出某種程度的智能。為了實現這一目標,研究者們采用了基于規則的方法,這種方法的核心在于通過觀察和分析人類的思維過程,歸納出反映人類智能活動的基本規則和原則。然后,研究者們將歸納出的規則轉換為計算機可以理解和執行的代碼。通過編程使機器能夠按照這些規則執行特定的任務,從而在一定程度上模擬人類的智能行為。基于規則的方法的出現,使得以邏輯方法來模擬智能的符號主義學派興起并大放光彩。

機器學習:1957年,弗蘭克·羅森布拉特(Frank Rosenblatt)開發了名為“Perceptron”(感知機)的神經網絡模型,其為一個簡單的兩層神經網絡,具備學習能力,并能夠通過訓練來識別模式。《紐約時報》在當時對感知機的潛力給予了高度評價,稱它為電子計算機的雛形,設想了其未來可能具備的能力,包括自主行走、說話、看見東西、書寫,甚至能夠自我復制和生產,以及擁有感知自我存在的能力,預示著未來技術的無限可能。

定理證明:1965年,魯賓孫(J.A.Robinson)提出了歸結(消解)原理,該原理是一個基于一階邏輯的反證法證明策略。1957年,艾倫·紐厄爾(Allen Newell)、赫伯特·A.西蒙(Herbert A.Simon)以及J.C.肖(J.C.Shaw)共同研發了邏輯理論機。邏輯理論機是一個計算機程序,主要目的是證明數學定理,特別是數學原理中的定理。該程序使用了啟發式搜索和產生式規則等技術,并在運行期間成功地證明了38個定理。

模式識別:1959年,塞爾夫里奇推出了一個具有里程碑意義的模式識別程序,標志著計算機在識別圖像數據模式上的突破。1965年,另一位杰出的科學家羅伯特(Roberts)成功編制了一款能分辨并構造積木模型的程序,展現了計算機處理三維物體及其關系的能力。

問題求解:1960年,紐厄爾、西蒙和肖再度合作并研制出了“通用問題求解程序”,其可求解11種不同類型的問題,提高了啟發式程序的通用性,擴大了計算機進行腦力勞動的應用范圍。

人工智能語言:1958年,麥卡錫研制了人工智能語言——LISP(LISt Processing,表處理)語言。LISP是一種基于λ演算的函數式編程語言,主要用于人工智能領域,特別是符號計算、自然語言處理和專家系統等方面。LISP語言的特點包括使用前綴表示法、動態類型、垃圾回收和強大的宏系統等,這使得LISP成為一種非常適合表達復雜算法和數據處理任務的編程語言,并且衍生出了許多方言和變種,如Common Lisp、Scheme等。

由上述人工智能在專有領域的發展可見,符號主義學派的觀點在當時的人工智能研究中占據了重要地位,基于規則的方法使得機器能夠處理一些復雜的問題,并在某些領域取得了顯著的成果。1969年,國際人工智能聯合會議成立,更意味著人工智能這門新興學科得到了世界的肯定和認可,人工智能發展出現了第一次浪潮。

3.第一次冬眠與重生

基于規則(或稱符號主義)的方法雖然取得了一定的成果,但其局限性也逐漸顯現。這種方法要求開發者將人類的知識和經驗精確地轉換為復雜的代碼和規則,不僅耗時耗力,而且難以應對復雜多變或未知的問題,如當人類不知道某個問題的解法時,計算機也不可能學會如何解。這種高度的依賴性和局限性,使得人工智能系統缺乏靈活性和創新能力,難以滿足人類對“智能”的更高期待。因此,符號主義學派的發展陷入了停滯,人工智能研究也一度陷入低谷。該時期的機器翻譯技術在很大程度上反映了基于規則方法的缺陷,其需要人工定義大量的語法規則和詞匯表,不僅耗時耗力,還難以覆蓋所有語言現象,特別是對于具有文化特色、語境依賴或隱喻含義的表述,基于規則的方法往往無法準確翻譯,導致譯文失真或產生誤解。例如,當把中文“一舉兩得”的英文“kill two birds with one stone”翻譯成法語就變成了“用一支箭雕刻出兩個形象”;當把“傾盆大雨”的英文“rain cats and dogs”翻譯成俄語,再翻譯回來的時候,竟變成了“貓和狗在雨中行走”。

面對20世紀70年代的“寒冬”挑戰,人工智能領域非但沒有沉淪,反而在眾多專家學者的不懈追求下,孕育出了重生的曙光。短短數十年間,便迎來了翻天覆地的變化,其轉折點正是1977年費根鮑姆在第五屆國際人工智能聯合會議上提出的“知識工程”概念,標志著人工智能正式邁入了一個以知識為核心驅動力的全新階段——“知識應用期”。在這一時期,人工智能的發展重心轉向了如何更有效地獲取、表示、推理和應用人類知識。專家系統正是這一時期的核心成果。

專家系統,顧名思義,是模擬人類專家在特定領域內的專業知識與決策過程構建出的智能系統。其由三大核心要素構成:專家知識庫、邏輯推理系統以及用戶互動界面。該系統實現了對專業領域知識的深度挖掘與高效應用,其本質是對邏輯推理能力的極致優化與拓展,同時也是符號主義理論在實踐中的輝煌展現。這一時期,也可以說是符號主義的鼎盛時期。隨著專家系統的廣泛應用與深入發展,其在多個領域均取得了令人矚目的成就。醫療領域的MYCIN專家系統(見圖1-5),以精準的病情診斷與治療方案建議,為醫生提供了強有力的輔助;地質勘探領域的PROSPECTOR專家系統,則通過對地質數據的深度分析,為礦產資源的發現與開采開辟了新途徑。這些成功案例,不僅彰顯了專家系統的巨大潛力與價值,也進一步鞏固了符號主義在人工智能領域的領先地位。專家系統的廣泛應用,使得“知識是智能的基礎”這一理論的重要性顯著提升。研究者們對知識的獲取、表示以及利用等進行了更為深入的研究并取得了較大的進展,特別是對不確定性知識的表示和推理建立了主觀Bayes理論、確定性理論、證據理論等,對人工智能中的模式識別、自然語言理解等領域的發展提供了有力支持,解決了許多理論及技術上的問題。

圖1-5 MYCIN專家系統

專家系統發光發熱的同時,機器學習也悄然崛起,學者們深刻認識到當前人工智能“說一做一”模式的局限性,于是積極探索新途徑,旨在賦予人工智能自我學習和進化的能力。這一探索的核心,便是讓機器能夠從海量數據中自主挖掘規律,進而構建出解決問題的新策略,這一進程被統稱為“機器學習”。在這一探索的征途中,1974年,哈佛大學的沃伯斯(Paul Werbos)博士提出的反向傳播算法BP算法)無疑是該時期的一大亮點。BP算法通過誤差的梯度反向傳播來調整多層前饋神經網絡的權重,解決了訓練難題,賦予網絡處理復雜問題的能力,成為神經網絡領域的基石之一。然而遺憾的是,1974年剛好處于第一次冬眠時期,因此BP算法并未受矚目。直到1986年,在Hinton和David E.Rumelhart等人的努力下,BP算法才重新煥發光彩,被深入挖掘并廣泛應用于神經網絡的訓練與優化之中。類神經網絡的出現也讓連接主義一種強調通過大量簡單處理單元相互連接來模擬復雜智能行為的理論)初露鋒芒,雖然連接主義受到當時理論框架的不完善以及計算硬件能力的限制,尚未發揮真正的實力,但已向眾人證明其可能性。

4.第二次冬眠與平穩發展

到20世紀80年代后期,雖然已有專家系統和機器學習的支持,但由于專家系統的局限性和機器學習的高門檻,人工智能領域引來了第二次“泡沫”。專家系統雖強,但缺乏自我學習能力、應用受限且知識獲取困難,而機器學習又仰賴大量的訓練資料和龐大的計算能力。在此背景下,傳統AI的數學計算體系顯然不夠完善和嚴謹,這促使學者們探索跨學科數學工具(如高等代數、概率統計等),并引入神經計算、進化計算等模仿生物行為的計算方法。這些有別于傳統人工智能的智能計算理論和方法被統稱為計算智能(Computational Intelligence,CI)。計算智能的出現不僅彌補了傳統人工智能在數學理論和計算方面的不足,還更新了人工智能的理論框架,極大地豐富了其內涵,使得人工智能進入了一個新的發展時期。

其中,最為耀眼的便是人工智能在博弈領域的突出表現。兩者的應用最早可追溯到1959年薩繆爾在IBM上編寫的一款國際跳棋程序,該程序的棋藝雖非頂尖,但能從棋譜和實戰中學習提升,深化了人們對“人工智能”的初印象。在反復的兜轉中,薩繆爾通過不斷改進程序,成功在1962年擊敗了人類玩家。至此,人工智能在博弈領域挑戰人類的號角正式吹響。1996年,美國IBM公司策劃了一場前所未有的“人機大戰”,邀請了國際象棋棋王卡斯帕羅夫與“深藍”計算機系統進行對決。深藍,這臺運算速度高達每秒1億次的超級計算機,在第一盤比賽中憑借其強大的計算能力擊敗了世界冠軍,震驚了整個棋壇。然而,盡管深藍表現出色,但最終還是未能抵擋住卡斯帕羅夫高深棋藝的攻勢。為了挽回顏面并進一步展示人工智能的潛力,IBM在一年內對深藍進行了多次升級和改良。帶著全新的實力和更強的計算能力,深藍再次向卡斯帕羅夫發起挑戰,并在一場備受全球關注的對決中,以3.5:2.5的總比分贏得了勝利。這場勝利不僅彰顯了當時人工智能技術的卓越成就,更向世人展示了計算機在速度和準確性方面的巨大優勢。盡管其棋路還遠未達到模擬人類思維方式的程度,但深藍已經成功地完成了大量原本只有人類思維才能完成的任務,這一壯舉無疑為人工智能的發展史增添了新的輝煌篇章。

在此后的十年間,人類與機器在國際象棋領域的對決中互有勝負,形成了一種勢均力敵的局面。然而,自2006年棋王卡拉姆尼克被國際象棋軟件Deep Fritz擊敗之后,人類在國際象棋比賽中再也沒有能夠戰勝計算機。深藍的成功主要得益于機器學習技術的不斷創新與發展。這一技術的發展不僅為深藍提供了從海量數據中提取有價值信息的能力,還賦予了它不斷學習和自我優化的能力。憑借這些能力,深藍在與國際象棋大師的對弈中能夠逐漸適應對手的棋風,并制定出克敵制勝的策略。回顧該時期,機器學習領域取得了多項重要成就,其中包括Vladimir Vapnik等人提出的支持向量機、John Lafferty等人提出的條件隨機場、David Blei和Michael Jordan等人提出的話題模型LDA,以及布雷曼博士提出的隨機森林算法等。這些成就不僅推動了機器學習技術的整體進步,也為深藍的成功奠定了堅實的基礎,充分展示了機器學習在推動人工智能發展方面的重要作用。

博弈領域的蓬勃發展并非孤星閃耀,神經網絡技術同樣見證了AI的璀璨光芒。不受第二次人工智能冬眠的影響,類神經網絡的支持者杰弗里·辛頓(Geoffrey Hinton)仍然持續研究并改善類神經網絡,并于2006年提出了新的類神經網絡訓練方法,成功訓練多層類神經網絡,并以深度學習(Deep Learning)之名重新包裝,讓此技術重新浮出水面,Hinton也因此被譽為深度學習之父。

5.蓬勃發展的第三次浪潮

摩爾定律的持續效應預示著硬件性能將經歷指數級的飛躍,這一趨勢與21世紀初互聯網、云計算等的蓬勃興起相輔相成,極大地簡化了數據的挖掘與匯聚過程。在此背景下,類神經網絡技術迎來了前所未有的發展機遇,實現了顯著的技術突破。特別值得一提的是,2012年成為深度學習領域的一個里程碑年份。在這一時期,Hinton憑借一個名為AlexNet的8層卷積神經網絡(CNN)以顯著的優勢(超越第二名10.8%的準確率)贏得了競賽的冠軍。AlexNet的成功標志著深度學習在計算機視覺領域的崛起,尤其是卷積神經網絡(CNN)的崛起。隨后在2015年,微軟亞洲研究院的何凱明等人再次將深度學習推向了新的高度。他們提出的殘差網絡(Residual Network,ResNet)采用了152層的深度結構,并成功應用于ImageNet圖像分類競賽,取得了令人矚目的3.57%的整體錯誤率,這一成績不僅大幅超越了之前的記錄,還首次實現了低于人類平均錯誤率5%的水平。該殘差神經網絡的核心創新在于發現了網絡不恒等變化導致的“退化現象”,并針對該現象引入了“快捷連接”,緩解了在深度神經網絡中增加深度帶來的梯度消失問題。這種創新的設計使得訓練更深層次的神經網絡成為可能,進一步推動了深度學習在計算機視覺以及其他領域的發展。

2014年,DeepMind團隊以卓越的前瞻性和創造力,巧妙融合了深度學習的強大表征能力與行為主義的增強式學習策略,孕育出了革命性的人工智能圍棋軟件——AlphaGo。隨著AlphaGo在2016年成功擊敗韓國頂尖職業棋手李世石,隨后又在2017年與世界排名第一的柯潔一較高下并取得勝利,其影響力遠遠超出了圍棋界本身,成為了全球矚目的焦點。這一系列勝利不僅驗證了AI在復雜策略游戲中的卓越能力,更激發了社會各界對人工智能未來無限可能的廣泛討論與熱烈期待,從而正式引爆了第三次人工智能熱潮。值得注意的是,AlphaGo的成功背后,行為主義的發展也扮演了關鍵角色。通過增強式學習機制,AlphaGo能夠在不斷的自我對弈與反思中積累經驗,優化策略,這種“從實踐中學”的方式與行為主義的核心原則不謀而合,展現了人工智能在學習與適應方面的巨大潛力,也預示著這一時期行為主義的發展成果將會是空前絕世的。

2017年無疑也是生成式人工智能發展史上的關鍵一年,它為后續諸多突破性進展奠定了基礎。該年,Vaswani及其同事提出了基于自注意力機制的神經網絡結構——Transformer架構。自從Transformer架構問世以來,其已成為大語言模型(Large Language Model,LLM)開發的關鍵組件,并在自然語言處理(NLP)領域取得了突破性的進展。隨后OpenAI于2018年6月推出了基于Transformer的GPT-1模型,展示了無監督預訓練結合特定任務微調的強大潛力。同時,谷歌也利用該新穎的Transformer架構,于2018年底發布并開源了基于雙向Transformer的預訓練語言模型(Bidirectional Encoder Representations from Transformers,BERT),通過同時考慮上下文信息,進一步提升了NLP任務的性能。除了GPT-1和BERT之外,2017年還見證了圖神經網絡的興起。GNN利用一種消息傳遞算法在圖的節點和邊上傳播信息。這使得網絡可以以更直觀的方式學習數據的結構和關系。

2021年,OpenAI推出了兩款引人注目的神經網絡模型:DALL-E和CLIP,它們獨特地連接了文本與圖像的世界。DALL-E模型憑借其強大的生成能力,能夠根據文本描述直接創作出對應的圖像;而CLIP模型則擅長于將圖像與文本類別進行精準匹配,展現了出色的跨模態理解能力。這兩款模型的發布,進一步推動了人工智能在圖像與文本交互領域的發展,標志著大模型在多模態領域的一次飛躍。

2022年11月,ChatGPT橫空出世,掀起了生成式人工智能浪潮。其基于GPT技術,構建了一個強大的大語言模型,通過學習海量文本數據的模式和規律,成功實現了對自然語言的高效理解和生成。這一技術突破極大地改變了自然語言處理領域的研究范式。僅僅數月后,OpenAI再度發力,于2023年3月發布了ChatGPT的升級版——GPT-4。相較于前代,GPT-4在功能和應用上實現了質的飛躍。它不局限于文本處理,而是更進一步地融入了音頻和視覺信息的處理能力,實現了在音頻、視覺和文本之間的實時推理和交互。這一創新極大地提升了GPT-4的多模態交互性能,使其應用場景得到了極大的拓展,包括圖像分析、語音識別等前沿領域。隨著技術的不斷突破,OpenAI的開發重點逐步過渡到圖像的生成,并發布了DALL-E 3,這是一款具有強大圖像生成能力的模型。OpenAI進一步將DALL-E 3的技術應用于其新平臺Sora中,使得Sora繼承了DALL-E 3的卓越畫質和出色的遵循指令能力,從而可根據用戶的文本提示創建逼真的視頻,深度模擬真實物理世界,生成具有多個角色、包含特定運動的復雜場景。

回顧人工智能的發展歷程,其演進軌跡鮮明地勾勒出一條從邏輯推理起步,經由知識工程的積累,再到自主學習能力飛躍的壯闊路徑。這一過程并非一蹴而就的,也非某一學派獨領風騷,而是全球范圍內多學科交叉融合、眾多學者不懈努力共同鑄就的輝煌篇章。近年來,生成式人工智能的蓬勃發展尤為引人注目,它仿佛一扇即將開啟的大門,預示著人類正站在通往通用人工智能新時代的門檻上。往昔,人工智能的研究聚焦于構建專用系統,這些系統專為解決特定任務或實現特定功能而生,如語音識別、圖像解析、自然語言處理等,它們在這些領域內展現出了卓越的性能。然而,一旦面臨超出其預設范疇的挑戰,這些系統的局限性便顯露無遺。而今,生成式人工智能技術的崛起如同一股強勁的東風,為AI領域帶來了前所未有的變革與希望。這些技術不僅極大地拓寬了AI的創造力邊界,賦予了AI系統前所未有的生成能力,更為其自我學習、自我進化鋪設了堅實的基石。它們讓AI不再僅僅是執行任務的工具,而是擁有了更接近于人類智慧的適應性和創造力。當然,通往通用人工智能的道路并非坦途,仍需跨越數據鴻溝、優化算法設計、應對倫理法律等多重挑戰。但正是這些挑戰,激發了科研工作者們不斷探索與創新的熱情。我們有理由相信,在時間的見證下,隨著技術的持續精進與研究的日益深入,這些難題終將逐一攻克,通用人工智能的宏偉藍圖將逐步變為現實。

1.3 人工智能與大數據技術的關系

大數據技術是指一系列用于收集、存儲、處理、分析和可視化大規模、多樣化、快速生成數據的方法和工具。它的主要目的是從海量數據中提取有價值的信息和知識,以支持決策、預測、優化和創新。大數據技術不僅關注數據的數量,還關注其速度、種類和真實性,即所謂的“大數據的4個V”:Volume(數據量大)、Velocity(速度快)、Variety(種類多)和Veracity(真實性)。

那么,人工智能和大數據技術之間存在什么樣的關系呢?

其實,AI的火熱與近年來大數據領域的重大突破是密不可分的。本輪AI浪潮是由大數據驅動的,算法本質上也就是“煉數術”。因此,AI進步的一個關鍵瓶頸依然是數據,特別是在進行監督學習時所需要的高質量訓練數據集。在此背景下,人工智能與大數據技術之間就形成了一種緊密的相互依存和促進關系。大數據技術為人工智能的發展提供了充足的數據資源,而人工智能則為大數據的處理、分析和應用提供了強大的技術支撐。

1.3.1 大數據推動人工智能發展

數據驅動的模型訓練:人工智能特別是機器學習和深度學習模型的訓練依賴于大量的數據。隨著大數據技術的興起,海量數據的收集、存儲和管理變得更加高效,這為AI模型提供了豐富的訓練數據,幫助它們不斷學習和優化。

更精準的預測與決策:大數據涵蓋了來自各行各業的大量信息,AI通過分析這些數據,可以發現隱藏在數據中的模式和規律,進而實現更為準確的預測和決策。例如,在金融、醫療等領域,AI可以通過大數據分析幫助做出風險評估、疾病診斷等關鍵判斷。

1.3.2 人工智能賦能大數據應用

數據挖掘和分析:人工智能技術可以從復雜的大數據中自動提取有價值的信息和見解。傳統的數據分析方法可能無法高效處理大規模、非結構化的數據,而AI則可通過自然語言處理、圖像識別等技術,幫助快速挖掘數據中的關鍵內容。

智能化數據處理:在大數據系統中,人工智能可以幫助處理海量的數據源、過濾噪聲信息,并實時優化數據處理流程,提升數據的應用效率。例如,AI技術可用于自動化清洗、分類、聚合數據,使數據更加高效地為決策服務。

1.3.3 兩者協同效應

AI模型的性能優化:隨著大數據技術的不斷發展,AI能夠利用更加全面、實時的數據進行建模,從而顯著提升模型的精度和性能。

自動化系統和預測:通過結合大數據與AI,企業可以開發自動化系統,實時監控并預測未來趨勢,從而實現智能化的生產、運營和服務。

總的來說,大數據為人工智能提供了數據基礎,人工智能則賦予了大數據智能化的處理能力,兩者共同推動著各個行業的創新和變革。同時,提到人工智能與大數據之間的關系,不得不提物聯網和云計算技術。其實,人工智能(AI)、物聯網(IoT)、大數據和云計算是當前信息技術領域的四大支柱,它們之間的關系緊密而互補,形成了現代智能技術生態(見圖1-6)。物聯網通過傳感器和設備實時采集大量數據,構成大數據的重要來源。大數據技術則對這些數據進行清洗、存儲和分析,為人工智能模型提供訓練和學習的基礎。人工智能通過分析大數據,識別模式、進行預測,并為物聯網設備提供智能化的決策和控制。云計算則為大數據處理和AI訓練提供了靈活的計算資源和存儲空間,支持大規模的并行處理和實時數據分析,提升了智能系統的整體效率與可擴展性。這四者共同推動了智能化應用在各行業的快速發展。

圖1-6 現代智能技術生態

1.4 人工智能技術路線

人工智能(AI)指的是通過機器來完成通常只有“人”才能勝任的任務,這些任務主要集中在幾個關鍵領域,即視覺識別、自然語言理解、機器人和機器學習,它們分別對應著人類的基本能力——看、聽、動和學習。從技術層面來看,人工智能可以分為感知、認知和執行3個層次。感知技術包括機器視覺和語音識別,這些技術幫助AI系統獲取外部信息;認知技術則涉及機器學習,旨在讓系統理解和分析信息;而執行技術包括人工智能與機器人相結合的硬件技術以及智能芯片的計算技術,這些技術使AI系統能夠在物理世界中執行任務。

然而,盡管AI系統在特定任務上表現出色(如簡單的算術運算,早在20世紀70年代的小計算器就已經比人類更擅長這類任務),但在處理更復雜、更通用的任務時,AI系統面臨著更大的挑戰。在狹窄的背景下,AI系統可以在特定的問題或應用上取得顯著進展,但一旦任務稍有改變,系統的性能就可能會大幅下降。這一現象表明,雖然人工智能技術在感知、認知和執行層面都有所突破,但其成熟度仍然依賴于任務的復雜性和背景的特定性,各領域間的發展也在逐步交叉融合,朝著更統一的方向邁進。

1.4.1 計算機視覺

視覺是人腦最主要的信息來源,計算機視覺是指通過計算機或圖像處理器及相關設備來模擬人類視覺,以讓機器獲得相關的視覺信息并加以理解,是機器能夠“看懂”周圍環境的計算基礎,最終解決機器代替人眼的問題。

從技術層面來看,計算機視覺是一種將圖像、視頻等視覺信息轉換為數字信號,并進行分析和處理的技術。根據識別對象的不同,計算機視覺可以進一步細分為圖像識別、人臉識別、文字識別等多個子領域。這些技術能夠對靜態圖片、動態視頻甚至實時的物體進行特征提取和分析,從而為后續操作提供關鍵的感知數據。

從整體的技術流程來看,計算機視覺的處理過程分別為圖像采集、目標提取、目標識別、目標分析,如圖1-7所示。首先是圖像采集,這一步通過傳感器或攝像設備獲取原始圖像數據;接下來是目標提取,通過算法從圖像中識別出感興趣的對象或區域;然后是目標識別,利用模式識別或深度學習等方法對提取出的對象進行分類和識別;最后是目標分析,對識別出的對象進行進一步的理解與解讀,如物體的形狀、運動軌跡或行為分析等。

圖1-7 計算機視覺處理的幾個過程

隨著技術的飛速發展,圖像識別和人臉識別等感知技術已經逐步進入應用市場,特別是在交通、醫療、工業、農業、金融、商業等領域,這些技術的廣泛應用引發了一系列新業態、新模式和新產品的突破性發展,推動了深刻的產業變革。蘋果公司的iPhone手機就是這一趨勢的代表,它集成了Face ID和A13芯片等先進的AI技術。蘋果的Face ID技術實現了高效的人臉驗證功能。在iPhone的頂部,集成了用于實現Face ID的多種器件,包括紅外攝像頭、泛光感應元件、點陣投影器和普通攝像頭。當紅外攝像頭檢測到一張面孔時,點陣投影器會發射出30000個微小的光點,這些光點的反饋被紅外攝像頭捕捉,用以構建人臉的三維數據模型。該模型隨后與A13芯片中存儲的面部模型進行比對,如果匹配成功,那么設備即可解鎖并喚醒。為了提高人臉識別的精確度,蘋果在其芯片中集成了一個神經引擎,專門用于神經網絡處理圖像和點陣模式。此外,蘋果還邀請了好萊塢特效面具公司制作面具,以訓練神經網絡,從而提升系統的安全性。美國科技媒體網站The Verge曾使用一臺具備夜視功能的攝像機成功拍攝到這些肉眼不可見的紅外光點。這些光點在視覺效果上極為震撼,不僅密集地投射在人臉上,還覆蓋到衣物上,展現了Face ID技術的高精度和復雜性。

在大規模視覺識別挑戰賽(LSVRC)中,圖像標簽錯誤率從2010年的28.5%下降至如今的2.5%,標志著AI系統在物體識別性能上已經超越了人類。這一顯著進步反映了視覺識別技術的快速成熟。尤其是在國內,視覺與圖像領域的投資融資位居AI領域之首,占據了整個AI投資的23%(數據來源:騰訊的《中美兩國人工智能產業發展報告》)。這一現象表明,國內投資者對視覺與圖像技術的前景持高度樂觀態度,認為該領域已經具備了高度的成熟度,并有望引領未來的科技創新和產業發展。

1.4.2 自然語言理解

自然語言理解是指機器接收人類提問的語音輸入,先通過語音識別將人類語音轉換為文字,再運用自然語義分析理解人類提問的含義(即理解人類的行為),最后反饋給人類與所提問相關的精準搜索結果,其核心技術在于用自然語義分析來理解人類日常說話中的提問,可以分為語音識別和自然語言處理兩個部分。

語音識別是讓計算機能夠像人類一樣“聽懂”語言的技術。通過麥克風或其他音頻采集設備,計算機能夠接收到外界的聲音信號,并通過處理算法將其轉換為可理解的文字或命令,從而使機器能夠理解并執行語音指令。語音識別的最終目標是讓機器替代人耳,準確地感知和理解語言信息。自然語言處理是指通過計算機模擬人類對語言的理解和生成過程,使機器能夠“理解”和“生成”自然語言。它包括從語義理解到語言生成的全流程,使機器能夠正確地解析和反映用戶的文本輸入。自然語言處理的最終目標是讓機器能夠像人腦一樣,流暢地理解和生成語言信息,實現人機之間的自然交流。

語音識別與自然語言處理是使機器能夠“聽懂”用戶語言的核心技術基礎。語音識別側重于對用戶語言的感知,語音識別為機器感知用戶指令奠定了基礎,但更為關鍵的是如何讓機器理解這些指令的含義,這就需要依賴自然語言處理技術。自然語言處理將用戶的語音轉換為機器能夠執行的指令,涉及自然語言理解、多輪對話處理、機器翻譯等多個領域。

盡管深度學習在自然語言處理中的作用仍有待進一步探索,但在語義理解和語言生成等領域已經取得了重要突破。如今,許多提供語音技術服務的公司不再局限于單一的語音識別或語義理解業務,而是開始推出整體的智能語音交互產品。這些產品能夠在語音感知和語義理解之間實現更緊密的集成,從而為用戶提供更加自然和智能的交互體驗。這標志著語音技術從感知層面向更高層次的認知與執行層面不斷邁進,推動了智能語音交互的全面發展。

從PC互聯網到移動互聯網,再到如今的AI時代,每個時代都伴隨著一次交互方式的變革。利用語音識別、自然語言處理和自然語言理解等技術研發的對話機器人,正在革新傳統的人機交互模式。這些對話機器人既可以內嵌在應用程序中,也可以與硬件結合,致力于成為用戶的個性“助理”。目前,這些“助理”已經具備基本的問答、對話和上下文理解功能,正在為用戶打造全新的人機交互體驗,并提供多場景的便捷服務。

例如,智能音箱已成為近年來美國消費市場的熱門產品。雖然蘋果公司的Siri依然是語音交互領域的領導者,但Amazon Alexa正在迅速崛起,不僅能夠進行對話應答,還可以與多種智能家居設備進行互動,如通過語音控制燈光等。谷歌的智能音箱功能類似于Alexa。蘋果也于2018年2月9日正式推出了HomePod智能音箱。

語音交互可以說是人機“交流”的重要環節,也是未來人工智能發展的關鍵入口之一。在國內,自然語言處理領域的融資規模位居第二,占整個AI投資的19%。國內企業中,京東與科大訊飛合作布局的智能音箱,致力于成為家庭控制中心。阿里推出了“天貓精靈”智能音箱,小米則發布了小米AI音箱。激烈的智能音箱競爭背后,實際上是下一代服務入口之爭。

百度基于AI技術打造的對話式人工智能系統DuerOS,已經在多款智能硬件產品中陸續應用。搭載DuerOS的設備讓用戶能夠通過自然語言對話的方式實現多種功能,如影音娛樂、信息查詢、生活服務和出行路況等。騰訊的所有語音端均采用了自研的AI技術,而阿里則在淘寶、支付寶電話客服、天貓精靈、優酷、蝦米音樂等平臺上廣泛應用了自己的語音技術。除了自家技術,BAT(百度、阿里、騰訊)也在加速對外開放平臺,推動擴展。阿里云、騰訊云小微和百度DuerOS平臺均已開放了語音識別、視覺識別等AI技術,百度還宣布語音技術全系列接口永久免費開放。

在谷歌I/O大會上,Google Assistant展現出了更加擬人化的特性,成為谷歌AI用戶體驗中最直觀的語音助手。谷歌正努力將其打造成更具人性化的助手:不僅聲音更加擬人化,對話也更加貼近日常交流習慣。在I/O大會的展示中,Google Assistant接到預定餐廳座位的指令后,用戶可以繼續忙自己的事情,而AI會自行撥打電話與餐廳工作人員進行多輪對話并敲定時間。這個展示突顯了Google Assistant的對話能力增強,顯著提升了用戶與機器對話的體驗。

1.4.3 機器學習

人類大腦一直是未解之謎。我們如何思考,大腦如何運作,以及智能的本質究竟是什么,這些問題自古以來就吸引了哲學家和科學家進行不斷探索。早期研究者認為,邏輯是人類智慧的核心特征之一。因此,許多人工智能研究的先驅試圖讓計算機程序遵循邏輯學的基本原則來進行運算、歸納和推理。這一時期,人工智能的目標是通過嚴格的邏輯推導實現智能行為。然而,研究人員很快意識到,人類的思維過程并不完全依賴邏輯。事實上,大部分思維是直覺的,往往依賴下意識的“經驗”。基于知識庫和邏輯規則構建的人工智能系統(如專家系統)雖然能夠在特定的狹窄領域內解決問題,但卻難以擴展到更廣泛的應用場景和日常生活中。于是,隨著對智能本質認識的深入,研究者開始探索一種新的實現人工智能的方法——機器學習。通過讓機器自主學習數據中的模式和規律,機器學習為人工智能開辟了更廣闊的應用空間。

人類的聰明之處在于能夠通過已有的認知對未知問題進行推理和類比。當人類讀書時,書籍提供數據,人腦通過思考與學習從中提煉出智慧。類似地,機器學習則是讓計算機通過已知的數據進行訓練,生成適當的模型,并利用該模型對新情境進行判斷和推理的過程。機器學習的本質是一種計算機算法。通過對大量的樣本數據進行訓練,計算機能夠學會對未來輸入的數據做出正確的反饋。訓練過程中,計算機會通過不斷的試錯來調整參數,以減少錯誤率。當錯誤率降低到符合預期標準時,模型便可以應用于實際任務。機器學習可以分為兩大類:監督式學習和非監督式學習。其中,監督式學習依賴標注過的訓練數據,而非監督式學習則從未標注的數據中自主尋找模式和規律。

機器學習的應用非常廣泛,應用在文本方面就是自然語言處理,應用在圖像方面就是圖像(模式)識別,應用在視頻上就是實體識別,應用在汽車上就是自動駕駛,等等。

機器學習的一項重要突破發生在2006年,那就是深度學習的崛起。深度學習的起源可以追溯到20世紀80—90年代的神經網絡研究。其模型靈感來自人類大腦的視覺皮層及人類的學習方式,借助工程化的方法簡化了這些功能。盡管深度學習模型是否真正反映了人類大腦的工作機制仍存在爭議,但這一技術突破的關鍵在于,它首次使機器在語音識別、圖像識別等領域達到了甚至超越了人類的感知能力。

深度學習是機器學習的重要分支,作為新一代計算模式,它通過多層次的非線性函數組合來模擬人類神經系統的工作方式,推動了人工智能的新一輪飛躍。與傳統計算模式不同,深度學習依托多層人工神經網絡算法,模仿人腦的神經網絡工作原理,從海量數據中自發提取規律,并靈活應用于不同場景。因此,它不需要人工干預來提取特定問題的特征。

近年來,IT巨頭紛紛開源人工智能平臺,各類深度學習框架層出不窮。自2015年以來,全球頂尖科技公司相繼開源了核心的人工智能平臺,如Caffe、CNTK、MXNet、Neon、TensorFlow、Theano和Torch等,使得深度學習的普及和應用更加廣泛。深度學習的代表性案例之一是谷歌的AlphaGo,而AlphaGo Zero進一步展示了純強化學習的潛力。AlphaGo Zero不依賴人類的示范或領域知識,僅通過自我對弈優化神經網絡,最終以100:0的成績擊敗了AlphaGo。這標志著深度學習在不受約束的環境中也能展現卓越的學習能力,推動了AI技術的更大突破。谷歌作為人工智能領域的領軍者,已建立起完整的AI生態系統。其自主研發的深度學習平臺TensorFlow,現已成為主流的開源框架,廣泛應用于谷歌搜索、谷歌翻譯等服務。為了適應移動和終端設備,谷歌還推出了TensorFlow Lite,進一步鞏固了其在AI領域的主導地位。本書的多個章節將圍繞TensorFlow展開,探討深度學習的技術及其應用。深度學習的技術成熟度已經從實驗室應用迅速轉向實際產業,覆蓋了眾多行業和場景,為語音識別、圖像處理、自動駕駛等領域帶來了革命性的突破。

美國在機器學習應用領域的投資占美國整體AI投資的21%,僅次于芯片領域的31%。機器學習熱潮的背后是三大關鍵因素的融合推動:首先是深度學習算法的不斷突破;其次是大數據的迅猛增長;最后是機器學習計算能力的飛速提升,尤其是GPU芯片等專用硬件的應用,將模型訓練時間從幾個月縮短至幾天甚至幾小時。硬件芯片技術也在快速發展,谷歌、英偉達、英特爾等公司相繼推出了下一代GPU芯片,這些新一代硬件有望將訓練速度提高10~100倍,進一步加速機器學習的進步。

1.4.4 機器人

在人工智能的應用領域中,機器人代表了“動”的部分,它們不僅能聽、看和學習,還具備實際的行動能力。機器人通過集成感知、認知和執行功能,將虛擬的智能決策轉化為物理行動,實現與環境的交互。無論是家庭中的智能助手,還是工業生產線上的自動化設備,機器人通過精確的運動控制和智能算法,使得自動化和智能化變得切實可行。隨著技術的進步,機器人正在不斷拓展其應用范圍,從簡單的任務到復雜的操作,它們正逐步成為人們生活和工作的得力助手。

盡管大部分智能機器人目前還處于產業發展的初期階段,隨著全球人工智能邁入第三次發展高峰,智能化已成為機器人發展的關鍵方向。人工智能與機器人技術的深度融合,正在顯著提升機器人智能化的水平。現代智能機器人具備了自主感知、認知、決策、學習、執行以及社會協作的能力。例如,美國波士頓動力公司(Boston Dynamics)專注于研發同獵狗般靈活的機器人,這些機器人不僅能爬樓梯、在與人類的拔河比賽中保持平衡,還能開門以便其他機器人通過。這些功能展示了機器人在未來可能展現出的快速、高效甚至令人敬畏的能力。除此之外,我國的宇樹科技有限公司也致力于人形機器人的開發,并且在2024年的世界機器人大會上展示了他們自主研發的兩款已量產的人形機器人(Unitree G1、H1)和兩款四足機器狗。其中,Unitree G1人形智能體如圖1-8所示,具有超越常人的靈活性,解鎖無限運動潛力。此外,這款機器人可進行高難度的動態動作,如動態站起、坐下折疊、舞棍等。并且Unitree G1還基于深度強化學習和仿真訓練,借助AI的加速發展,在不斷升級和演進。

圖1-8 Unitree G1人形智能體

全球范圍內,智能機器人正在迅速涌現,如日本的ASMO、Actroid-F仿人機器人、Pepper智能機器人,以及美國的BigDog仿生機器人等。許多科技巨頭也通過收購機器人公司,將智能機器人作為人工智能的重要載體,以推動該領域的發展。例如,谷歌接連收購了Schaft、Redwood Robotics等9家機器人公司,積極布局類人形機器人制造和機器人協同。然而,機器人技術的發展并非總是一帆風順。例如,曾經日本人以能讓機器人跳舞為傲,但福島核災難暴露了其機器人在應急情況下的脆弱性。美國也派遣了機器人到災區,但常常遇到技術問題,比如電纜纏繞導致機器人無法移動。這些問題表明,盡管智能服務機器人在不斷進步,但仍處于產業化的初步階段。

1.4.5 人工智能技術開發工具

在人工智能技術的發展過程中,強大的開發工具為研究人員和工程師提供了高效的支持,推動了AI技術的創新與應用。AI的常用開發框架包括scikit-learn、谷歌的TensorFlow、Facebook的Torch、微軟的CNTK等,這些框架都是開源軟件。

scikit-learn,簡稱為sklearn,是一款針對Python編程語言的開源機器學習庫。它包含豐富的分類、回歸和聚類算法,如支持向量機、隨機森林、梯度提升、k-means、DBSCAN等。sklearn是GitHub上最受歡迎的機器學習庫之一,且與其他常用的Python庫無縫集成,如用于繪圖的Matplotlib和Plotly、數組運算的NumPy,以及用于數據處理的Pandas數據幀。作為專注于機器學習的Python開源框架,sklearn提供了多種成熟的算法,安裝簡單,使用方便,且擁有大量示例、詳細的教程和文檔。其性能表現相對優秀,特別適合初學者和應用開發者。然而,sklearn也有一些局限性,如不支持深度學習和強化學習,這些技術在今天的AI應用中變得非常重要。此外,sklearn僅支持Python語言,對GPU的利用效率較低,這在處理大規模數據和高計算需求的任務時可能會受到限制。

2015年,谷歌發布了第二代人工智能系統TensorFlow,并宣布將其開源。TensorFlow提供了廣泛的深度學習工具、功能和示例,成了深度學習領域的基礎框架之一。2013年,卷積神經網絡的發明者Yann LeCun加入Facebook,領導團隊在圖像識別和自然語言處理技術上取得了顯著進展。Facebook的深度學習框架基于Torch實現,并于2015年12月正式開源。

2018年,百度發布了飛槳(PaddlePaddle),這是我國首個自主研發、功能豐富、開源開放的產業級深度學習平臺。飛槳在業內率先實現了動靜統一的框架設計,兼顧科研和產業需求,在開發便捷的深度學習框架、大規模分布式訓練、高性能推理引擎、產業級模型庫等技術上處于國際領先水平。2020年,清華大學也推出了自主研發的深度學習框架——計圖(Jittor),這是一個完全基于動態編譯(Just-in-time),內部使用創新的元算子和統計計算圖的深度學習框架。

表1-1中列出了各個公司所提供的AI開源平臺。

表1-1 AI開源平臺

除了上述的AI開源平臺和框架外,AWS還推出了SageMaker,Apache則提供了Spark MLlib。Spark MLlib是一個高度可擴展的機器學習庫,支持Java、Scala、Python及R語言,廣泛應用于大規模數據處理。它與Python的NumPy和R的數據包等工具集成,能夠高效地進行交互操作。MLlib提供了多種機器學習算法,如分類、回歸、聚類等,并且可以輕松融入Hadoop的工作流程中。該庫在處理大規模數據時表現出色,具有極快的速度。Spark MLlib的優點在于其高效處理大規模數據的能力,并支持多種編程語言;缺點是它的學習曲線較為陡峭,且目前僅支持與Hadoop的即插即用集成。

1.5 人工智能與交叉應用

人工智能與交叉應用指的是將人工智能技術與其他領域或學科進行結合和應用,創造出跨學科的新型解決方案或技術。這種交叉應用通過整合不同領域的知識、數據和方法,使AI能夠在更多元的場景下發揮作用,從而解決傳統領域中無法通過單一技術手段解決的問題。例如,將AI的技術能力(如機器學習、自然語言處理、計算機視覺、機器人等)與其他學科(如醫學、金融、教育、工程、藝術等)或技術領域相結合,通過多學科的交互與合作,我們可以得到更加創新的解決方案,以至于推動行業的智能化升級和社會問題的高效解決。

隨著AI與各行業的深度融合,傳統行業正在向智能化邁進,包括AI+金融、AI+醫療、AI+安防、AI+家居和AI+教育等領域,AI應用場景如圖1-9所示。在各個垂直行業,傳統廠商憑借其產業鏈、渠道和用戶數據的優勢,通過接入互聯網和人工智能技術進行轉型。與此同時,創業公司則專注于技術突破與場景應用的落地,在細分市場中快速崛起,推動技術進步。應用層的企業直接面對用戶,沿著2B或2C的路徑發展,借助用戶數據不斷完善產品,以更好地滿足市場需求。

圖1-9 AI應用場景

人工智能的產業化應用受到技術平臺、市場環境、用戶需求等多重因素的影響。如何實現AI的自主創新并將其應用于具體行業場景,是未來發展的關鍵。目前,人工智能的主要應用領域涵蓋安防、制造、服務、金融、教育、傳媒、法律、醫療、家居、農業、汽車等行業。隨著AI技術的不斷成熟,商業化應用場景逐漸落地,智能家居、金融、醫療、駕駛和安防等行業已經成為AI主要的應用場景,展現出廣闊的發展前景。

1.5.1 智能醫療

目前,傳統的醫療行業面臨諸多挑戰,包括醫療資源不足、區域分布不均、醫生培養周期長、醫療成本高、誤診率較高,以及疾病變化迅速等問題。隨著人口老齡化的加劇和慢性病的持續增長,醫療服務的需求也在不斷增加。這些醫療痛點與日益增長的服務需求,推動了人工智能在醫療領域的廣泛應用。通過引入人工智能技術,醫療行業將逐步形成智能化的輔助診斷系統。借助圖像識別、知識圖譜等先進技術,AI可以輔助醫生進行診斷決策。此外,醫學大數據的發展將推動患者信息的數字化處理,提升對潛在疾病的發現概率,并提供更精準的解決方案。人工智能將為醫生和患者帶來全新的診療方式,顯著提升疾病診斷和治療的效率與準確性,推動醫療服務的智能化與個性化發展。

2017年7月8日,國務院發布《新一代人工智能發展規劃》,提出發展便捷高效的智能服務,圍繞教育、醫療、養老等需求,加快人工智能創新應用;同時,也提出推廣人工智能治療這種新模式、新手段,建立智能醫療體系,開發人機協同的手術機器人、智能診療助手等,實現智能影像識別、病理分型和智能多學科會診;而在智能健康和養老方面,提出加強群體智能健康管理,突破健康大數據分析、物聯網等技術,構建安全便捷的智能化養老基礎設施體系,加強老年人產品智能化和智能產品適老化等。

在醫療領域,人工智能技術展現了廣闊的應用前景。結合全球企業的實踐經驗,“人工智能+醫療”的具體應用場景涵蓋了多個方面,包括醫學影像分析、輔助診療系統、虛擬醫療助理、新藥研發、個性化健康管理、可穿戴設備的監控、急救室和醫院的智能管理、數據洞察與風險評估、營養與病理管理,以及生活方式的監督與改善等。這些應用為醫療行業帶來了更高效、精準的解決方案,推動了醫療服務的智能化發展。

“人工智能+醫學影像”將AI技術應用于醫學影像診斷,實際上是模仿人類醫生的閱片過程。人工智能在醫學影像中的應用主要涉及4個環節:數據預處理、圖像分割、特征提取以及匹配判斷。AI憑借其強大的圖像識別和深度學習能力,能夠有效提升傳統醫學影像診斷的準確性,緩解影像科醫生工作量大、讀片準確度低等問題。通過提高工作效率和診斷精度,AI技術可幫助解決影像科醫生短缺的難題,并減輕放射科醫生的工作壓力。同時,人工智能還助力疾病的早期篩查,及早發現病灶,顯著提高患者的存活率。雖然單一病種的影像識別市場空間有限,但在政策的推動下,影像科、檢驗科的市場化運營以及病理中心的建立,為高端診斷服務和影像識別技術帶來了廣闊的發展機會。

“人工智能+輔助診療”是將AI技術應用于輔助診療的過程,使機器學習能夠模擬專家醫生的知識和思維,通過診斷推理解釋病因并提供可靠的治療方案。在這一過程中,AI首先獲取患者的病癥信息,進行推理分析,判斷疾病原因及發展趨勢,最終形成有效的治療方案。其典型流程為獲取病癥信息→提出假設→制定治療方案。IBM Watson是“人工智能+輔助診療”領域最成熟的案例之一。它結合了認知技術、推理技術、自然語言處理、機器學習以及信息檢索等多項技術,已經通過了美國職業醫師資格考試,并在美國多家醫院提供輔助診療服務。Watson能夠在17s內處理3469本醫學專著、248000篇論文、69種治療方案、61540次試驗數據和106000份臨床報告,通過分析這些數據,迅速找到疾病與治療方案的對應關系,并構建醫學知識圖譜,幫助醫生優化診斷決策。截至2017年3月底,Watson腫瘤醫生在全球7個國家服務的病患數量已達到數萬名。未來,“人工智能+輔助診療”在基層醫療中的應用前景廣闊,尤其在常見病診療方面能夠顯著提高醫療效率,降低成本,推動醫療資源的優化利用。

總而言之,人工智能在醫療領域的廣泛應用有助于緩解當前醫療資源不足的核心問題。面對高昂的醫療成本和醫生培養周期較長等挑戰,AI憑借其高效的分析能力,顯著提升了醫療行業的整體效率與產能。此外,人工智能的應用還能夠促進基層醫療的發展,提高基層醫生的診斷準確性,使“人工智能+醫療”成為可復制、可推廣的醫療資源解決方案。未來,AI技術在醫療領域的深度融合,將推動醫療服務更加智能化和普及化。

1.5.2 智能安防

安防領域涵蓋了從身份識別和家居安防到反恐和國防等的廣泛應用。隨著現代社會人口流動的增加,安防需求變得越來越迫切。圖像識別技術在身份識別中的重要性日益凸顯。AI技術的進步能夠顯著提升身份識別的多樣性和準確率,這對于提升安防水平至關重要。在國防安全領域,安防應用更具國家戰略意義,AI技術的引入將進一步加強國家安全保障。

在視頻監控技術迅猛發展的背景下,視頻監控畫面產生的信息量已遠超人力處理的能力。傳統的人工回放錄像取證方法效率低下且易出錯。而大數據技術則具備處理海量信息的能力,結合人工智能技術,能夠實現實時監控和基準判斷。智能視頻分析(Intelligent Video Analysis,IVA)技術成為解決海量視頻數據處理的有效方案。

IVA技術利用計算機視覺,主要應用于兩個方面。一是基于特征的識別,包括車牌識別和人臉識別。這種特征識別技術在安防體系中顯著提升了時效性、安全性和精準度。二是行為分析技術,包括人數管控、個體追蹤、禁區管控和異常行為分析等。這些技術可應用于交通規則監測、周界防范、物品遺留檢測和人員密度檢測等領域。通過對視頻中的圖像序列進行定位、識別和追蹤,智能視頻分析能夠進行有效的分析和判斷,實現實時監控并及時上報異常。這使得安防從被動防范轉向主動預警,實現對潛在危險的主動識別。

在應用領域方面,平安城市和智能交通依然是安防行業的主要應用場景。政府和公安部門將技術用于交通監控和道路視頻監控中尤為關鍵。計算機視覺技術被廣泛應用于機場、火車站等公共場所,這些大規模視頻監控系統可以實時進行人臉抓拍、布控報警、屬性識別、統計分析及重點人員軌跡還原等功能,并提供及時有效的智能預警。這種技術對于追蹤有作案前科的慣犯尤為有效,目前多用于公安部門在事前、事中和事后進行敏感人員布控及失蹤人員查找。安全布防需要消耗大量的警力資源,尤其是在運動會、國家會議和演唱會等重點區域和活動中。隨著人工智能產品的不斷進步,實時監測系統、巡邏機器人和排爆機器人等技術逐漸取代傳統安防體系中重復且低效的工作,從而節省警力資源并提升整體安全管理效率。

1.5.3 智能家居

在智能家居領域,人工智能將進一步推動家居生活產品的智能化發展。一方面,它將提升各類家居產品的智能化水平,如照明系統、音響系統、能源管理系統和安防系統,推動家居設備從基礎的感知功能逐步進化到具有認知和自主決策能力。另一方面,智能家居系統的構建也將日益完善,搭載人工智能的多種設備(如機器人、智能音箱、智能電視等)有望成為智能家居的核心。通過不斷自我學習和控制,這些系統將逐步為不同的用戶提供個性化的服務體驗。

目前,智能家居正經歷從手機控制向多種控制方式結合的過渡階段。盡管手機應用程序仍然是智能家居的主要控制手段,但基于人工智能技術開發的語音助手和配備語音交互功能的硬件產品已逐漸進入市場。這些技術使得通過語音控制實現多設備聯動的場景逐步成為現實。展望未來,人工智能將推動智能家居系統從多控制方式向感應式控制,最終發展到機器自我學習和自主決策的階段。

傳統的鼠標和觸屏操作正逐步演變為更加自然的語音交互方式。語音交互的潛力不僅在于用戶數據的深度挖掘,還在于其背后內容和服務的整合。語音作為物聯網時代的入口,將催生新的商業模式。目前,智能音箱、服務機器人、智能電視等智能產品已成為搭載語音識別和自然語言處理技術的主要載體。這些產品不僅提供基本服務,還接入了移動互聯網服務,能夠控制其他智能家居設備。它們為付費內容、第三方服務和電商等資源開辟了新的流量入口,通過記錄和分析用戶數據,廠商能夠將服務融入生活的不同場景中,使服務更加人性化。

1.5.4 智能制造

智能制造是一種由智能機器和人類專家共同組成的先進人機協作系統,能夠在制造過程中執行諸如分析、推理、判斷、構思和決策等智能活動。通過智能機器與人類專家的密切協作,智能制造不僅擴展和增強了人類在制造中的腦力勞動,還部分取代了傳統制造過程中的人為決策。相比于傳統的自動化生產,智能制造引入了更高層次的柔性化、智能化及高度集成化的概念,進一步革新了制造自動化的范疇。

隨著人工智能技術的深入應用,制造業正從半自動化向全自動化加速邁進。通過構建工業以太網、廣泛使用傳感器及不斷優化智能算法,制造過程中的各個生產環節得以實現全面的數據互通,形成了人與機器、機器與機器之間的無縫連接。這種技術進步不僅使人機交互更加便捷,還使機器間能夠實現高效的協同工作,極大提高了生產精度。同時,人工智能還能預測產品需求變化,進而動態調整產能,進一步優化資源配置。人工智能在制造業中的應用,不僅有助于替代傳統的人工操作,還能夠大幅提高生產效率,降低運營成本,最終實現低成本的個性化智能制造服務。

1.5.5 自動駕駛

自動駕駛,也被稱為無人駕駛,是指通過人工智能、視覺計算、雷達、監控設備和全球定位系統的協同作用,使計算機能夠在沒有人類干預的情況下,安全、自動地控制機動車輛行駛。2022年12月22日,國內首個低速自動駕駛系統性能測試認證在北京經開區舉行頒證儀式。2023年1月5日,百度研究院發布自動駕駛系統在內的2023年十大科技趨勢預測。2023年11月21日,交通運輸部辦公廳印發了《自動駕駛汽車運輸安全服務指南(試行)》。2024年5月,特斯拉提出想在我國落地“無人駕駛出租車”,對此,盡管中國政府尚未完全批準其FSD(全自動駕駛系統)的全面落地,但可能會支持其進行國內測試和示范應用。

先進駕駛輔助系統(Advanced Driver Assistance System,ADAS)則是通過車載傳感器實時收集車輛內外的環境數據,幫助駕駛者快速感知潛在危險。ADAS使用的主要傳感器包括攝像頭、雷達、激光雷達和超聲波傳感器。與自動駕駛的主要區別在于,ADAS是自動駕駛實現過程中一個重要的階段性技術,未來有望逐步演化為完全自動駕駛系統,為最終的無人駕駛鋪平道路。

毫無疑問,自動駕駛技術是自汽車發明以來最具顛覆性的創新之一。它不僅改變了汽車工業,還對社會發展、出行方式產生了深遠影響。在自動駕駛領域,華為、百度等公司專注于提供解決方案,而特斯拉則選擇自主造車,它們找到了各自的發展路徑,預見并把握了未來的趨勢。國內車企也紛紛成立技術創新中心,在自動駕駛、車聯網和人工智能技術上不斷取得突破,推動我國智能汽車產業鏈進入結構性變革階段。目前,乘用車自動駕駛技術已經實現L3級別,具備自動超車、限速調節和最優車道選擇等功能。同時,無人配送車和自動駕駛貨車也已進入規模化量產階段,這將進一步加速道路智能化建設,徹底重塑未來的出行模式。

1.5.6 人工智能+

2024年的《政府工作報告》在談到“科技創新實現新的突破”時,肯定了“關鍵核心技術攻關成果豐碩”,特別提到了“人工智能、量子技術等前沿領域創新成果不斷涌現”。在談到“大力推進現代化產業體系建設,加快發展新質生產力”時,《政府工作報告》中說,深化大數據、人工智能等研發應用,開展“人工智能+”行動,打造具有國際競爭力的數字產業集群。這是“人工智能+”行動的首次提出。

人工智能+(Artificial Intelligence Plus),英文縮寫為AI+。它將“人工智能”作為一種基礎性、驅動性的技術力量,與制造、醫療、教育、交通、農業等多個領域進行深度融合,創造出新的產品、服務和商業模式,推動經濟形態不斷發生演變,從而帶動社會經濟實體的生命力蓬勃發展。

通俗來說,“AI+”就是“AI+各個行業”,但這并不是簡單的兩者相加,而是利用人工智能技術和互聯網平臺,讓人工智能與傳統行業、新型行業進行深度融合,創造新的發展生態。它代表了一種新的社會形態,即充分發揮“人工智能”在整個社會中的作用,將“人工智能”的創新成果深度融合于經濟、社會各領域之中,提升全社會的創新力和生產力,形成更廣泛的以互聯網為基礎設施和實現工具的經濟發展新形態。

1.6 本書內容安排

本書分為21章,全面涵蓋了人工智能的基礎理論、研究方法以及廣泛的交叉應用場景。以下是各部分主要內容的簡要介紹。

第一部分:經典人工智能基礎。包括第1章 緒論、第2章 知識表示學習、第3章 確定性和不確定性推理、第4章 搜索求解策略。這一部分介紹了人工智能的基本概念和核心技術,涵蓋知識表示、推理方法和搜索策略,為讀者后續理解和應用現代人工智能技術奠定基礎。

第二部分:現代人工智能基礎。包括第5章 機器學習、第6章 深度學習、第7章 自然語言處理、第8章 計算機視覺、第9章 語音處理、第10章 數據挖掘與預測分析。此部分探討了機器學習和數據處理技術,涵蓋監督學習、無監督學習、強化學習、數據挖掘方法和數據分析技術。機器學習是人工智能的核心領域之一,本部分將深入介紹其原理和應用,幫助讀者更深入地理解人工智能的方法和技術。

第三部分:人工智能前沿基礎。包括第11章 推薦系統、第12章 智能計算機圖形學、第13章 大模型技術、第14章 智能體與多智能體系統、第15章 具身智能。這一部分集中討論人工智能如何與人類和環境進行自然交互,并介紹了一些應用技術,涉及計算機視覺和智能圖形學等領域,將對大模型技術和推薦系統這些應用技術進行一定的介紹。

第四部分:人工智能交叉應用基礎。包括第16章 科學智能、第17章 文科智能、第18章 人工智能+、第19章 領域啟發式人工智能、第20章 人工智能的社會倫理與社會影響。這部分探討了人工智能在跨學科領域的應用及其對社會的影響和倫理問題,展示了人工智能在不同學科中的融合與創新,并討論了技術發展帶來的挑戰與機遇。

第五部分:人工智能初級編程基礎。這部分包括第21章 人工智能初級編程。依托國產深度學習開源框架——Jittor(計圖)等先進工具,教授如何高效地訓練深度學習模型及執行基礎圖像處理任務,為本土AI人才的培養搭建基石,促進一個健康、充滿活力的AI生態體系的構建與發展。

通過以上5個部分的有機組合,本書為讀者提供一個系統而全面的人工智能學習框架。每一章節都以清晰的邏輯結構和深入的內容為讀者提供知識,以助力他們深入理解人工智能和交叉應用。詳細的章節安排如圖1-10所示。

圖1-10 本書章節安排

1.7 針對不同專業學生的學習建議

鑒于讀者群體可能擁有多樣化的文理工科背景及個性化學習需求,我們特此提出以下建議,旨在幫助讀者在使用本書時能夠因材施教,各取所需。

1.7.1 文科類專業

對于文科類專業的讀者,本書提供了豐富的視角,鼓勵將重點放在人工智能與社會影響、倫理道德、用戶體驗等方面的探討上。通過學習這些章節,該類讀者將能夠深入理解人工智能在社會科學領域的實際應用,掌握如何利用人工智能技術解決社會問題,以及如何在人文視角下審視人工智能的發展與挑戰。

建議32學時,學習章節如下。

●第1章 緒論:了解人工智能的基礎概念和發展歷史,4學時

●第2章 知識表示學習:理解知識表示的基本概念,分析人工智能如何與人文領域結合,2學時

●第5章 機器學習:幫助運用數據分析和模式識別技術,研究人文社會科學中的復雜問題,如趨勢分析、社會行為預測和文本挖掘,從而增強在數據驅動決策和智能應用領域中的競爭力,4學時

●第7章 自然語言處理:幫助更好地分析和處理大量文本數據,提升語言理解、文本分析和信息提取能力,從而在語言學、文學、傳媒和人文社會科學等領域開展更深入的研究與應用,2學時

●第11章 推薦系統:幫助理解個性化信息推送的原理,應用于文化產業、傳媒、市場營銷等領域,提升用戶體驗和內容分發的精準度,進而增強數據驅動的內容策劃和傳播能力,2學時

●第13章 大模型技術:幫助掌握如何利用強大的語言生成和理解能力,在語言學、文學創作等領域實現自動化內容生成、文本分析和多語言處理,提升科研和應用的創新能力,4學時

●第15章 具身智能:幫助理解智能系統如何通過與物理環境互動來實現認知和行為,從而將這一技術應用于文化創意、教育、藝術展覽等領域,創造出更加沉浸式和交互式的體驗,2學時

●第17章 文科智能:幫助運用人工智能技術提升藝術創作和數字人文研究的效率及創新性,推動藝術與科技的融合,開拓新的表達形式和研究方法,6學時

●第18章 人工智能+:幫助將人工智能技術融入人文社科領域,推動跨學科創新,提升在文化、教育、傳媒等領域的數字化應用能力和數據驅動的決策水平,4學時

●第20章 人工智能的社會倫理與社會影響:幫助理解和評估人工智能技術在社會、文化、法律等領域的道德挑戰和影響,從而在技術應用中推動負責任的創新與人性化發展,2學時

1.7.2 理科類專業

對于理科類專業的讀者,則建議深入挖掘本書的算法理論與數學模型部分,重點學習人工智能模型的核心原理、數據科學的基本方法以及相關的數學基礎。這將有助于該類讀者構建堅實的理論基礎,為后續在人工智能領域的深入研究與創新實踐奠定堅實的基礎。

建議32學時,學習章節如下。

●第1章 緒論:為后續深入學習打下基礎,2學時

●第2章 知識表示學習:理解知識的表達形式和推理方法,2學時

●第3章 確定性和不確定性推理:學習如何在不確定條件下進行智能決策,2學時

●第4章 搜索求解策略:了解常見的搜索算法和問題求解策略,2學時

●第5章 機器學習:深入學習監督學習、無監督學習等機器學習技術,2學時

●第6章 深度學習:重點研究神經網絡和深度學習算法的原理及應用,2學時

●第7章 自然語言處理:掌握自然語言處理的基本原理,2學時

●第8章 計算機視覺:掌握計算機視覺的基本任務和如何生成視頻,2學時

●第9章 語音處理:掌握語言處理的基本原理,2學時

●第10章 數據挖掘與預測分析:掌握如何從數據中挖掘模式并進行預測,2學時

●第13章 大模型技術:掌握大模型技術的基本原理,2學時

●第16章 科學智能:幫助運用人工智能技術加速科學發現、優化實驗分析和模型預測,提升在自然科學領域的研究效率和創新能力,2學時

●第18章 人工智能+:幫助將人工智能技術與自身專業領域相結合,提升數據分析、自動化實驗和創新研發的能力,加速科學研究和技術應用的突破,2學時

●第19章 領域啟發式人工智能:幫助運用自然界的生物和物理原理來設計創新算法和智能系統,解決復雜科學問題,推動生物、物理、工程等領域的前沿研究和技術突破,2學時

●第20章 人工智能的社會倫理與社會影響:幫助在推動技術創新的同時,理解和應對人工智能應用帶來的倫理挑戰和社會影響,確保科技進步與社會責任相平衡,促進可持續發展,2學時

●第21章 人工智能初級編程:幫助將人工智能算法與技術應用于實際科研與工程項目中,提升解決復雜問題的能力,推動自動化分析、建模與創新研發,2學時

1.7.3 工科類專業

對于工科類專業的讀者,本書著重強調了人工智能技術的實際應用與工程實現。該類讀者應當側重于學習編程技能、系統架構設計、硬件優化以及人工智能技術的集成應用等方面的內容。通過實踐案例與項目演練,該類讀者將能夠掌握如何將人工智能技術轉化為實際生產力,推動產業升級與技術革新。

建議32學時,學習章節如下。

●第1章 緒論:為深入應用打好基礎,2學時

●第2章 知識表示學習:理解知識的表達形式和推理方法,2學時

●第3章 確定性和不確定性推理:學習如何在不確定條件下進行智能決策,2學時

●第4章 搜索求解策略:了解常見的搜索算法和問題求解策略,2學時

●第5章 機器學習:掌握機器學習的核心方法及其在工程中的應用,2學時

●第6章 深度學習:了解深度學習的原理,并能夠在實際項目中應用,2學時

●第8章 計算機視覺:學習視覺處理技術,應用于工程領域的智能系統,2學時

●第9章 語音處理:了解語音識別與處理的技術,應用于人機交互系統中,2學時

●第11章 推薦系統:學習推薦系統的設計與實現,應用于實際產品開發,2學時

●第12章 智能計算機圖形學:掌握圖形學技術,應用于虛擬現實和三維建模等工程場景,2學時

●第13章 大模型技術:幫助在復雜系統設計、智能制造和工程優化中運用人工智能的強大建模與預測能力,提升工程效率、創新設計和解決實際問題的能力,2學時

●第14章 智能體與多智能體系統:幫助設計和開發分布式智能系統,實現自動化協作、資源優化和復雜任務的高效執行,應用于機器人、智能制造、交通控制等工程領域,2學時

●第15章 具身智能:幫助開發能夠與物理環境互動的智能系統,提升機器人、自主車輛和智能設備的感知、控制與交互能力,從而推動工程自動化和智能制造的發展,2學時

●第16章 科學智能:幫助運用人工智能技術加速實驗設計、優化工程流程、提升數據分析與建模能力,從而推動工程創新和科學突破,2學時

●第18章 人工智能+:幫助將人工智能技術融入工程領域,提升自動化、智能控制和優化設計的能力,從而推動智能制造、建筑、能源等領域的創新與效率提升,2學時

●第21章 人工智能初級編程:幫助掌握人工智能算法的實際應用,開發智能化工程解決方案,優化自動化系統和復雜任務的執行,提升工程設計和實施效率,2學時

1.8 小結

本章全面概述了人工智能的基本概念、發展簡史、與大數據技術的關系、技術路線及其在多個領域的交叉應用。我們期望,通過深入閱讀本章內容,讀者能夠初步構建起對人工智能整體框架和基礎背景的認知,并領略到人工智能在各行各業所蘊含的巨大潛力和深遠影響。

人工智能不單是計算機科學的一個分支,更是一個融合了多學科知識的關鍵領域,正日益重塑著人們的生活方式和工作模式。隨著技術的持續演進,人工智能將在更多行業內扮演舉足輕重的角色,進而引領社會的創新與進步。

同時,我們必須正視公眾對人工智能的多元化擔憂。首先是對AI可能廣泛取代人類進行工作,進而導致失業率激增與社會經濟不平等的深刻憂慮;其次是對AI系統失控甚至孕育自我意識的恐懼,這種恐懼部分根植于科幻作品的渲染之中,擔憂其對人類安全構成潛在風險;再者是對數據隱私與安全的深切關切,人們擔心個人信息在AI系統中的濫用或泄露可能引發一連串的隱私侵犯問題。

此外,公眾對AI的誤解同樣不容忽視。一種常見的誤解是,認為AI已經能夠全面替代人類的智能與創造力,忽視了其當前仍高度依賴于人類預設的算法與數據進行運作的事實;另一種誤解則是將AI視為一個神秘莫測的“黑箱”,對其內部復雜的運行機制和工作原理知之甚少。

這些擔憂與誤解共同交織,映射出公眾面對快速發展的AI技術時,既滿懷期待又保持謹慎的復雜心理狀態。為了緩解這些擔憂并糾正誤解,我們需要加強科普宣傳,提升公眾對AI技術的正確認知;同時,建立健全的數據保護機制,確保個人信息的安全與隱私;并推動AI倫理與治理的研究,引導AI技術健康、可持續地發展,更好地服務于人類社會。

在后續的章節中,我們將進一步挖掘人工智能的具體技術手法和實踐應用場景,深入剖析其技術內核、實施策略、實際成效,以及與人工智能相關的倫理問題。我們希望通過這些詳盡的闡釋,幫助讀者更透徹地理解人工智能,掌握其精髓,以便能夠在實際工作中靈活運用。

主站蜘蛛池模板: 榆中县| 菏泽市| 集安市| 兴海县| 江都市| 灌阳县| 新闻| 夏邑县| 肇东市| 青阳县| 辛集市| 平凉市| 达拉特旗| 仪征市| 尼勒克县| 忻州市| 苗栗县| 商城县| 通州市| 禄劝| 皮山县| 冕宁县| 吉林省| 赣州市| 台北市| 攀枝花市| 潮州市| 寻乌县| 宜川县| 无极县| 和龙市| 兴海县| 巴塘县| 新邵县| 休宁县| 金平| 个旧市| 博白县| 盐城市| 体育| 兴化市|