pg电子麻将胡了2爆超级大奖

1.2.6　GPT-4

2023 年 3 月，OpenAI發布了 GPT-4。關于這個新模型的架構，我們知之甚少，因為 OpenAI提供的信息很少。這是 OpenAI迄今為止最先進的系統 5，能夠針對用戶的提問生成更安全、更有用的回答。OpenAI聲稱，GPT-4 在高級推理能力方面超越了 GPT-3.5 Turbo。

5 截至本書英文版 2024 年 7 月出版時。——譯者注

　當該模型發布時，OpenAI發布了一份技術報告“GPT-4 Technical Report”，評估了模型的能力，并與之前的模型（如 InstructGPT 和 GPT-3）進行了大量比較。

與 OpenAIGPT 家族中的其他模型不同，GPT-4 是第一個能夠同時接收文本和圖像的多模態模型。這意味著 GPT-4 在生成輸出句子時會考慮上下文中的圖像和文本。這樣一來，用戶就可以將圖像添加到提示詞中并對其提問。

起初，OpenAI并未在 GPT-4 中公開推出視覺功能。直到 2023 年 11 月，OpenAI宣布推出具備視覺能力的 GPT-4 Turbo 模型。GPT-4 Turbo 還配備了 128 000 詞元的上下文窗口，這意味著輸入提示詞可以相當于 300 頁的英文文本！此外，GPT-4 Turbo 的成本也低于原始的 GPT-4。

在圖 1-8 的示例中，我們在紙上寫下一個公式，拍照后讓 GPT-4 Turbo 描述圖片中的公式。正如你所見，模型輕松識別出這是黃金比例。

目前市場上有眾多語言模型，客觀比較它們的表現，確定哪個模型在特定任務中更為出色，變得尤為重要。一種常見的方法是評估它們在大學考試中的表現。在這種背景下，人們對模型在不同測試中的表現進行了評估，結果顯示，GPT-4 在各項測試中的得分普遍高于 GPT-3.5 Turbo。例如，在美國的統一律師資格考試中，GPT-3.5 Turbo 的得分位于第10 百分位，而 GPT-4 則位于第90 百分位。在國際生物學奧林匹克競賽中，GPT-3.5 Turbo 的得分位于第31 百分位，而 GPT-4 則位于第99 百分位。這一進展令人印象深刻，尤其是在不到一年的時間內取得了如此顯著的提升。最近，OpenAI發布了其最新 6 的旗艦模型 GPT-4o（“o”代表 omni，即“全能”），該模型在多個基準測試中表現優于此前的 GPT-4。

6 截至 2025 年 3 月，OpenAI發布的最新模型為 GPT-4.5。——譯者注

圖 1-8：GPT-4 視覺能力的應用（2024 年 2 月）

另一種常見的語言模型比較方式是讓人類以盲測的方式評分，即評估者在不知曉模型名稱的情況下，對不同模型的回答進行評分。LMSYS Chatbot Arena Leaderboard（托管于 Hugging Face）提供了這種比較方式。LMSYS Chatbot Arena 是一個基于眾包的LLM隨機對戰平臺，用戶可以同時與兩個隨機選擇的模型進行對話，而不知曉具體使用的是哪種模型，然后投票選出回答更相關的模型。這種方式類似于一場競賽，模型之間可以進行比拼，并通過 ELO 評分系統進行排名（關于 ELO 評分系統的更多信息，請參閱“為什么使用 ELO 評分系統來比較模型”）。

為什么使用 ELO 評分系統來比較模型

ELO 評分系統由匈牙利裔美國物理學教授、國際象棋大師 Arpad Elo 創建，最初是為了改進美國國際象棋聯合會（United States Chess Federation，USCF）使用的早期評級方法。1960 年，USCF 采納了這一系統。1970 年，世界國際象棋聯合會也開始使用它。如今，ELO 評分系統被廣泛應用于競爭領域，例如電子游戲中的玩家排名，其中《英雄聯盟》的玩家評級便是基于此系統。

ELO 評分系統同樣適用于比較 LLM。在該系統中，兩個LLM通過盲評方式進行競爭。具體操作是，用戶向兩個模型提出相同的問題，模型給出回答后，用戶需要選擇哪個回答更為優質。

ELO 評分系統可用于對零和游戲中的玩家排名。零和游戲指的是在游戲中，其中一個玩家的得益正好等于另一個玩家的損失。排名的挑戰在于玩家對抗的動態變化和新玩家的不斷涌現。該系統設計得足夠靈活，能夠通過不斷更新比賽結果來調整玩家的排名，從而有效評估玩家的相對技能水平。

ELO 評分系統為每個玩家分配一個數值，數值越高表示技能水平越強。該系統的核心優勢之一是，它能直接通過兩位玩家的 ELO 分數差異來估算其中一方獲勝的概率。

假設玩家和玩家的 ELO 分數分別為和，則玩家獲勝的概率可以通過以下公式計算：

在撰寫本書時，排名前三的模型均為 GPT-4 系列，其中 ELO 分數最高的是 GPT-4o 模型（gpt-4o-2024-05-13）。第四名是谷歌的 Gemini 1.5 Pro 模型，而 GPT-3.5 Turbo 排名第30 位。

如果你向一個人展示兩個模型——例如，gpt-4o-2024-05-13（得分 1287）和 GPT-3.5-Turbo-0613（得分 1120）——而不告訴他它們是什么模型，你可以通過將 ELO 分數代入公式來估算此人更偏好 gpt-4o-2024-05-13 模型的概率。在這種情況下，概率估計為 72%。

表 1-1 總結了 GPT 模型的演變歷程。

表 1-1：GPT 模型的演變歷程

　你可能聽說基礎模型（foundation model）這個術語。與傳統的針對特定任務訓練的模型不同，基礎模型是在多種類型的數據上進行訓練的。這種廣泛的訓練使它們對不同領域有深入的理解，而這些知識隨后可以通過微調來適應特定任務。GPT 系列模型就是典型的基礎模型。正如我們所見，GPT 展現出了在各種主題上生成類似人類文本的強大能力。通過微調，它的廣泛知識可以被專門優化，使它擅長不同的任務，例如寫作、編程等。這種特性使得基礎模型能夠適應醫療、金融等多個領域的任務，充分利用其龐大的、不受特定領域限制的知識庫。

官术网_书友最值得收藏!

大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）

1.2.6 GPT-4

1.2.6　GPT-4