九龙财神的寓意

書名：大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）
作者名： (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
本章字數： 857字
更新時間： 2025-05-07 12:21:00

1.2.7　人工智能向多模態演進

正如前面提到的，Transformer 和語言模型最初主要用于文本處理任務。最早的 Transformer 架構由 Vaswani 等人在 2017 年的論文“Attention Is All You Need”中提出，旨在解決文本翻譯問題。然而，基于 Transformer 的技術很快就被應用到其他類型的數據上。例如，GPT-4 已經具備視覺處理能力，可以在生成回答時將圖像作為輸入的一部分進行理解。

但這并不是唯一可以在應用程序中使用的模態。OpenAI提供了可以在 Python 中使用的工具，這些工具可以通過 OpenAI API 訪問，雖然它們并不直接嵌入LLM本身，但可以作為補充技術，讓開發者在構建應用程序時利用更廣泛的AI功能。

使用 DALL · E 生成圖像
通過 OpenAI API，應用程序可以直接調用 DALL · E 2 或 DALL · E 3 模型。這些模型屬于文本生成圖像（text-to-image）模型。DALL · E 3 是更先進的版本，能夠在生成的圖像中融入文本，還支持橫向（landscape）和縱向（portrait）布局。相比 DALL · E 2，DALL · E 3 生成的圖像通常更精美，細節更豐富，并且能夠理解更復雜的提示詞。這些模型使開發者能夠直接通過文本描述創建視覺吸引力強的內容，為創意和實用性應用開辟了新的可能性。
語音識別與合成
OpenAI還訓練了名為 Whisper 的神經網絡 Transformer，它在超過 50 種語言的語音識別中表現出色，尤其是在英語方面，已接近人類水平。OpenAI已將 Whisper 的代碼開源，開發者也可以通過 OpenAI API 訪問該工具。Whisper 允許開發者創建能以極高準確度理解口語的應用程序。
此外，OpenAI音頻 API 提供了對兩個文本轉語音（text to speech，TTS）模型的訪問，一個優化了實時文本轉語音的應用場景，另一個則更側重于語音質量。用戶可以選擇 6 種聲音，這些模型支持超過 50 種語言，在英語中表現最佳。
使用 Sora 進行視頻生成
在本書撰寫時，OpenAI已發布了其新的文本轉視頻工具——Sora。目前，Sora 尚未向開發者開放 7，但這表明未來不久將會有類似的工具可供使用。用戶只需要提供簡單的提示詞，Sora 就能夠生成最長 60 秒的視頻內容。
這些多模態工具顯著拓展了AI的能力，為開發者及其應用程序開辟了新前景。借助這些技術，你可以創建更具互動性的應用程序，讓用戶通過多種方式（圖像、語音、文本，以及即將推出的視頻）進行交流。

7 OpenAI已于北京時間 2024 年 12 月 10 日正式向公眾開放了其文本生成視頻模型 Sora。——譯者注

官术网_书友最值得收藏!

大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）

1.2.7 人工智能向多模態演進

1.2.7　人工智能向多模態演進