- 駕馭ChatGPT:學會使用提示詞
- Shom等編著
- 1282字
- 2024-01-18 12:12:42
1.1 AI簡述
人工智能(Artificial Intelligence,AI)是指利用計算機模擬人類智能的理論、方法、技術和應用系統的總稱。比如ChatGPT就是人工智能領域的杰出產品,它通過大量數據和算力模擬人類的語言能力。
機器學習(Machine Learning,ML)是一種人工智能技術,通過對數據進行訓練和學習,讓計算機能夠從數據中學習并自動改善算法的性能,以達到特定的目標。比如線性回歸就是機器學習中的一種方法,被用來探索數據潛在的規律。
深度學習(Deep Learning,DL)是機器學習的一個分支,利用深度神經網絡模型來學習和識別復雜模式及其關系,以實現更高層次的抽象和推理。比如ChatGPT背后是非常龐大的神經網絡,通過大量參數來學習大量數據背后的規律。
這三者的關系如圖1.1所示,人工智能包含機器學習,機器學習包含深度學習。

圖1.1 人工智能、機器學習和深度學習的關系
人工智能與人類認知世界的維度一致,即主要通過圖像、文本和聲音這三個維度進行感知和交互。圖像、文本和聲音分別對應計算機視覺(Computer Vision,CV)、自然語言處理(Natural Language Processing,NLP)、自動語音識別(Automatic Speech Recognition,ASR)三個重點應用領域。為了解決這三個重點應用領域的問題,我們既會用機器學習和深度學習等人工智能方法,即本書重點內容,其產品就屬于AI應用范疇,也會用除人工智能外的方法,比如,計算機視覺領域中應用了傳統圖像處理方法,自然語言處理領域也會應用基于統計的語言模型等,如圖1.2所示。

圖1.2 計算機視覺、自然語言處理、自動語音識別與人工智能的關系
AI應用都是建立在這三個維度里面的一個或多個結合的基礎之上的。其中,兩個或兩個以上維度的應用即為多模態應用,下面詳細介紹相關示例。
計算機視覺指能夠模擬和實現人類視覺的感知和理解能力的計算機技術,包括圖像處理、圖像識別、目標檢測、視頻分析等分支,可應用于人臉識別、自動駕駛、智能安防等場景。圖1.3所示的是Midjourney自動生成的食物廣告圖片。這就是AI在計算機視覺領域應用的示例。Midjourney是一款能夠根據文字生成新的圖片的AI應用。

圖1.3 計算機視覺應用示例:AI生成的食物廣告圖片
自然語言處理是指處理、理解和生成人類語言的計算機技術,包括文本分類、文本生成、機器翻譯等分支,可應用于聊天機器人、智能客服、自動摘要等場景。圖1.4展示了AI把“知識就是力量”翻譯成“Knowledge is power”的編碼和解碼過程,這是自然語言處理領域的典型應用,即機器翻譯。

圖1.4 自然語言處理應用示例:從中文翻譯成英文
自動語音識別(Automatic Speech Recognition,ASR)是指將人類語音轉換成可識別的文本的計算機技術。自動語音識別經常與自然語言處理結合,應用于語音助手、智能客服、智能家居等領域。比如,圖1.5所示的是蘋果公司推出的語音助手Siri的Logo,Siri和小度機器人、小愛機器人等均為自動語音識別與自然語言處理結合的對話機器人。

圖1.5 自動語音識別與自然語言處理結合應用示例:對話機器人
基于上述三個維度組合出的多模態應用十分豐富,圖1.6中所示的特斯拉的自動駕駛即為典型的多模態應用。在自動駕駛中,計算機視覺負責識別實體,即圖1.6左圖所示的車載攝像頭所識別的對自動駕駛有影響的物體;自然語言處理則負責自動駕駛的智能決策,如是否轉彎、行進速度等;自動語音識別負責語音交互,即與司機的語音交流。

圖1.6 多模態應用示例:特斯拉的自動駕駛