官术网_书友最值得收藏!

1.4 壓縮即智能——為什么ChatGPT擁有智能

隨著ChatGPT、PaLM 2、文心一言等各種大型語言模型的火爆,人們在驚嘆它們的強大能力的同時,也在不斷地思考一個問題:為什么只有解碼器的ChatGPT也能表現出智能?

生成式預訓練變壓器(generative pre-trained Transformer,GPT)實際上就是基于Transformer的只有解碼器的模型。圖1-13展示了GPT的模型結構[2],它的本質是預測下一個詞。為什么這樣一個簡單的結構就能夠訓練出具有智能的大模型呢?

圖1-13 GPT的模型結構

目前規模較大的語言模型在訓練基礎模型時,都采用了預測下一個詞的任務。這個任務非常簡單,就是根據語句中前面的詞來生成下一個詞。但這樣學習到的似乎只是詞之間的表面統計關系,怎么就能體現出智能呢?這確實很難理解。

OpenAI的核心研發人員杰克·瑞(Jack Rae)曾在斯坦福機器學習相關研討會上分享了一個主題:通用人工智能中的壓縮。杰克·瑞之前是OpenAI團隊的負責人,主要研究大模型和遠程記憶。他曾在DeepMind工作了8年,領導了大模型研究組。

在此分享中,杰克·瑞提出了如下兩個核心觀點:

壓縮就是智能。

大模型就是壓縮(GPT的預測下一個詞的任務本質上是對訓練數據的無損壓縮)。

他通過論證壓縮就是智能,以及GPT的訓練過程是對數據的無損壓縮,證明了GPT具有智能。下面具體介紹杰克·瑞是如何證明GPT具有智能的。

主站蜘蛛池模板: 晋宁县| 永平县| 镇雄县| 稷山县| 乐业县| 浏阳市| 松江区| 达孜县| 英山县| 左权县| 衡阳市| 彝良县| 运城市| 吴川市| 堆龙德庆县| 贺州市| 八宿县| 同心县| 濉溪县| 弥勒县| 靖州| 古田县| 南川市| 江油市| 临泽县| 通州区| 怀化市| 大竹县| 南宁市| 平南县| 醴陵市| 汉川市| 沐川县| 芦溪县| 布尔津县| 景洪市| 建始县| 内黄县| 庄河市| 陵川县| 洛隆县|