官术网_书友最值得收藏!

LLM 接收提示詞作為輸入,并生成相應的文本,這個過程被稱為文本補全(text completion)。例如,輸入的提示詞可能是“The weather is nice today, so I decided to”(今天天氣很好,所以我決定去),而模型的輸出則可能是“go for a walk.”(散步)。你可能會好奇LLM是如何根據提示詞構建出這段文本的。實際上,這主要是一個概率計算的問題。

當LLM收到提示詞之后,它首先將輸入拆分成詞元(token)。這些詞元代表單詞、單詞的一部分、空格或標點符號。比如,在前面的例子中,提示詞可以被拆分成 [“The”,“wea”,“ther”,“is”,“nice”,“today”,“,”,“so”,“I”,“de”,“ci”,“ded”,“to”]。

幾乎每個語言模型都配有自己的分詞器。你可以在 OpenAI平臺上測試 GPT-3.5 和 GPT-4 系列的分詞器。

 有一條經驗法則有助于你基于文本長度理解詞元:對于英語文本,100 個詞元大約等于 75 個單詞。但對于其他語言來說,情況可能有所不同,同樣數量的單詞可能會對應更多的詞元 2

2 對于中文文本,100 個詞元大約等于 50 ~ 80 個漢字(單詞)。——譯者注

因為有了注意力機制和 Transformer 架構,LLM 能夠輕松處理詞元并解釋它們之間的關系及提示詞的整體含義。Transformer 架構使模型能夠高效地識別文本中的關鍵信息和上下文。

為了生成新的句子,LLM 會根據用戶提供的提示詞的上下文預測最有可能出現的后續詞元。OpenAI已經發布了多個版本的 GPT-4。最初,用戶可以選擇的上下文窗口分別為 8192 個詞元和 32 768 個詞元。到 2024 年初,OpenAI最新發布的模型是 GPT-4 Turbo 和 GPT-4o,其輸入上下文窗口擴大到了 128 000 個詞元,相當于近 300 頁的英文文本。與早期難以處理長輸入序列的循環模型不同,Transformer 架構結合注意力機制,使得現代LLM能夠將上下文作為一個整體來考慮。模型為每個潛在的后續詞元分配一個概率分數,然后選擇概率最高的詞元作為序列中的下一個詞元。在前面的例子中,“The weather is nice today, so I decided to”之后,下一個最佳詞元可能是“go”。

 正如我們將在下一章看到的,通過調整溫度(temperature)參數,模型可以不總是選擇概率最高的下一個詞,而是從一組高概率詞中進行選擇。這種機制允許模型在生成文本時引入一定的多樣性和創造力,從而避免輸出過于單一或機械化。

這一過程會不斷重復,但每次生成新詞后,上下文也會隨之擴展。例如,模型在第一步預測出“go”后,新的上下文變為“The weather is nice today, so I decided to go”,并將“go”作為新的輸入的一部分。接下來,模型可能會預測出“for”。這個過程會持續進行,直到生成完整的句子,例如“The weather is nice today, so I decided to go for a walk.”。這一生成過程依賴于LLM從海量文本數據中學習出的可能性最高的下一個單詞。圖 1-5 直觀地展示了這一過程。

圖 1-5:逐詞元地補全文本,整個過程是迭代式的

主站蜘蛛池模板: 开远市| 元阳县| 安福县| 敖汉旗| 桂林市| 克什克腾旗| 九龙坡区| 九江县| 大连市| 军事| 宁河县| 田阳县| 奉新县| 额尔古纳市| 东源县| 大足县| 望奎县| 个旧市| 靖西县| 界首市| 虎林市| 随州市| 武穴市| 广宁县| 黄骅市| 安塞县| 北票市| 利辛县| 义马市| 达日县| 霍城县| 张掖市| 延川县| 汾阳市| 阳原县| 新乡市| 龙江县| 邢台县| 多伦县| 大兴区| 济阳县|