- 大模型應用開發極簡入門:基于GPT-4和ChatGPT(第2版)
- (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
- 1837字
- 2025-05-07 12:20:59
1.2.6 GPT-4
2023 年 3 月,OpenAI發布了 GPT-4。關于這個新模型的架構,我們知之甚少,因為 OpenAI提供的信息很少。這是 OpenAI迄今為止最先進的系統 5,能夠針對用戶的提問生成更安全、更有用的回答。OpenAI聲稱,GPT-4 在高級推理能力方面超越了 GPT-3.5 Turbo。
5 截至本書英文版 2024 年 7 月出版時。——譯者注
當該模型發布時,OpenAI發布了一份技術報告“GPT-4 Technical Report”,評估了模型的能力,并與之前的模型(如 InstructGPT 和 GPT-3)進行了大量比較。
與 OpenAIGPT 家族中的其他模型不同,GPT-4 是第一個能夠同時接收文本和圖像的多模態模型。這意味著 GPT-4 在生成輸出句子時會考慮上下文中的圖像和文本。這樣一來,用戶就可以將圖像添加到提示詞中并對其提問。
起初,OpenAI并未在 GPT-4 中公開推出視覺功能。直到 2023 年 11 月,OpenAI宣布推出具備視覺能力的 GPT-4 Turbo 模型。GPT-4 Turbo 還配備了 128 000 詞元的上下文窗口,這意味著輸入提示詞可以相當于 300 頁的英文文本!此外,GPT-4 Turbo 的成本也低于原始的 GPT-4。
在圖 1-8 的示例中,我們在紙上寫下一個公式,拍照后讓 GPT-4 Turbo 描述圖片中的公式。正如你所見,模型輕松識別出這是黃金比例。
目前市場上有眾多語言模型,客觀比較它們的表現,確定哪個模型在特定任務中更為出色,變得尤為重要。一種常見的方法是評估它們在大學考試中的表現。在這種背景下,人們對模型在不同測試中的表現進行了評估,結果顯示,GPT-4 在各項測試中的得分普遍高于 GPT-3.5 Turbo。例如,在美國的統一律師資格考試中,GPT-3.5 Turbo 的得分位于第10 百分位,而 GPT-4 則位于第90 百分位。在國際生物學奧林匹克競賽中,GPT-3.5 Turbo 的得分位于第31 百分位,而 GPT-4 則位于第99 百分位。這一進展令人印象深刻,尤其是在不到一年的時間內取得了如此顯著的提升。最近,OpenAI發布了其最新 6 的旗艦模型 GPT-4o(“o”代表 omni,即“全能”),該模型在多個基準測試中表現優于此前的 GPT-4。
6 截至 2025 年 3 月,OpenAI發布的最新模型為 GPT-4.5。——譯者注

圖 1-8:GPT-4 視覺能力的應用(2024 年 2 月)
另一種常見的語言模型比較方式是讓人類以盲測的方式評分,即評估者在不知曉模型名稱的情況下,對不同模型的回答進行評分。LMSYS Chatbot Arena Leaderboard(托管于 Hugging Face)提供了這種比較方式。LMSYS Chatbot Arena 是一個基于眾包的LLM隨機對戰平臺,用戶可以同時與兩個隨機選擇的模型進行對話,而不知曉具體使用的是哪種模型,然后投票選出回答更相關的模型。這種方式類似于一場競賽,模型之間可以進行比拼,并通過 ELO 評分系統進行排名(關于 ELO 評分系統的更多信息,請參閱“為什么使用 ELO 評分系統來比較模型”)。
為什么使用 ELO 評分系統來比較模型
ELO 評分系統由匈牙利裔美國物理學教授、國際象棋大師 Arpad Elo 創建,最初是為了改進美國國際象棋聯合會(United States Chess Federation,USCF)使用的早期評級方法。1960 年,USCF 采納了這一系統。1970 年,世界國際象棋聯合會也開始使用它。如今,ELO 評分系統被廣泛應用于競爭領域,例如電子游戲中的玩家排名,其中《英雄聯盟》的玩家評級便是基于此系統。
ELO 評分系統同樣適用于比較 LLM。在該系統中,兩個LLM通過盲評方式進行競爭。具體操作是,用戶向兩個模型提出相同的問題,模型給出回答后,用戶需要選擇哪個回答更為優質。
ELO 評分系統可用于對零和游戲中的玩家排名。零和游戲指的是在游戲中,其中一個玩家的得益正好等于另一個玩家的損失。排名的挑戰在于玩家對抗的動態變化和新玩家的不斷涌現。該系統設計得足夠靈活,能夠通過不斷更新比賽結果來調整玩家的排名,從而有效評估玩家的相對技能水平。
ELO 評分系統為每個玩家分配一個數值,數值越高表示技能水平越強。該系統的核心優勢之一是,它能直接通過兩位玩家的 ELO 分數差異來估算其中一方獲勝的概率。
假設玩家 和玩家
的 ELO 分數分別為
和
,則玩家
獲勝的概率可以通過以下公式計算:

在撰寫本書時,排名前三的模型均為 GPT-4 系列,其中 ELO 分數最高的是 GPT-4o 模型(gpt-4o-2024-05-13)。第四名是谷歌的 Gemini 1.5 Pro 模型,而 GPT-3.5 Turbo 排名第30 位。
如果你向一個人展示兩個模型——例如,gpt-4o-2024-05-13(得分 1287)和 GPT-3.5-Turbo-0613(得分 1120)——而不告訴他它們是什么模型,你可以通過將 ELO 分數代入公式來估算此人更偏好 gpt-4o-2024-05-13 模型的概率。在這種情況下,概率估計為 72%。
表 1-1 總結了 GPT 模型的演變歷程。
表 1-1:GPT 模型的演變歷程

你可能聽說基礎模型(foundation model)這個術語。與傳統的針對特定任務訓練的模型不同,基礎模型是在多種類型的數據上進行訓練的。這種廣泛的訓練使它們對不同領域有深入的理解,而這些知識隨后可以通過微調來適應特定任務。GPT 系列模型就是典型的基礎模型。正如我們所見,GPT 展現出了在各種主題上生成類似人類文本的強大能力。通過微調,它的廣泛知識可以被專門優化,使它擅長不同的任務,例如寫作、編程等。這種特性使得基礎模型能夠適應醫療、金融等多個領域的任務,充分利用其龐大的、不受特定領域限制的知識庫。