- 大模型應用開發極簡入門:基于GPT-4和ChatGPT(第2版)
- (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
- 857字
- 2025-05-07 12:21:00
1.2.7 人工智能向多模態演進
正如前面提到的,Transformer 和語言模型最初主要用于文本處理任務。最早的 Transformer 架構由 Vaswani 等人在 2017 年的論文“Attention Is All You Need”中提出,旨在解決文本翻譯問題。然而,基于 Transformer 的技術很快就被應用到其他類型的數據上。例如,GPT-4 已經具備視覺處理能力,可以在生成回答時將圖像作為輸入的一部分進行理解。
但這并不是唯一可以在應用程序中使用的模態。OpenAI提供了可以在 Python 中使用的工具,這些工具可以通過 OpenAI API 訪問,雖然它們并不直接嵌入LLM本身,但可以作為補充技術,讓開發者在構建應用程序時利用更廣泛的AI功能。
使用 DALL · E 生成圖像
通過 OpenAI API,應用程序可以直接調用 DALL · E 2 或 DALL · E 3 模型。這些模型屬于文本生成圖像(text-to-image)模型。DALL · E 3 是更先進的版本,能夠在生成的圖像中融入文本,還支持橫向(landscape)和縱向(portrait)布局。相比 DALL · E 2,DALL · E 3 生成的圖像通常更精美,細節更豐富,并且能夠理解更復雜的提示詞。這些模型使開發者能夠直接通過文本描述創建視覺吸引力強的內容,為創意和實用性應用開辟了新的可能性。
語音識別與合成
OpenAI還訓練了名為 Whisper 的神經網絡 Transformer,它在超過 50 種語言的語音識別中表現出色,尤其是在英語方面,已接近人類水平。OpenAI已將 Whisper 的代碼開源,開發者也可以通過 OpenAI API 訪問該工具。Whisper 允許開發者創建能以極高準確度理解口語的應用程序。
此外,OpenAI音頻 API 提供了對兩個文本轉語音(text to speech,TTS)模型的訪問,一個優化了實時文本轉語音的應用場景,另一個則更側重于語音質量。用戶可以選擇 6 種聲音,這些模型支持超過 50 種語言,在英語中表現最佳。
使用 Sora 進行視頻生成
在本書撰寫時,OpenAI已發布了其新的文本轉視頻工具——Sora。目前,Sora 尚未向開發者開放 7,但這表明未來不久將會有類似的工具可供使用。用戶只需要提供簡單的提示詞,Sora 就能夠生成最長 60 秒的視頻內容。
這些多模態工具顯著拓展了AI的能力,為開發者及其應用程序開辟了新前景。借助這些技術,你可以創建更具互動性的應用程序,讓用戶通過多種方式(圖像、語音、文本,以及即將推出的視頻)進行交流。
7 OpenAI已于北京時間 2024 年 12 月 10 日正式向公眾開放了其文本生成視頻模型 Sora。——譯者注
- 軟件項目估算
- Learning Cython Programming(Second Edition)
- 自制編譯器
- MongoDB for Java Developers
- JavaScript+jQuery開發實戰
- SAP BusinessObjects Dashboards 4.1 Cookbook
- 深入淺出PostgreSQL
- 編程與類型系統
- Learning Unreal Engine Android Game Development
- Julia for Data Science
- Hadoop 2.X HDFS源碼剖析
- IDA Pro權威指南(第2版)
- OpenCV 3計算機視覺:Python語言實現(原書第2版)
- JavaScript從入門到精通(視頻實戰版)
- Building Business Websites with Squarespace 7(Second Edition)