- 大模型應用開發:核心技術與領域實踐
- 于俊 劉淇 程禮磊 程明月
- 372字
- 2025-02-10 15:44:15
1.4.1 多模態能力
多模態是指結合了文本、圖像、語音、視頻等多種數據形式的模型。OpenAI發布的GPT-4V,不僅僅可以通過文字來對話,還可以通過語音和圖片進行溝通。文生視頻模型Sora充分利用GPT-4V多模態認知模型為視頻訓練標注的高質量數據,能夠生成分鐘級時長的視頻。尤其是Sora對物理規律的模仿,已經具備了一定程度的世界模擬器能力,有望向世界模型進化。Google發布的多模態大模型Gemini,無縫跨域文本、圖像、音頻和視頻,可實現對超長文本的處理以及對長時音視頻的理解,進一步豐富了應用場景。
多模態技術的持續進步,在豐富用戶多維和沉浸式體驗、提高多模態數據處理效率、理解復雜的現實世界場景、創新各種新產品形態和新服務形式等多方面,將產生巨大的價值。結合行業知識,多模態大模型有望應用于視頻內容分析、語音識別結合文本理解、互動廣告、交通態勢感知、制造業產品研發設計、農業生產檢測和優質育種等眾多場景。