- Sora:讀懂人工智能新紀元
- 陳根
- 1343字
- 2024-09-02 14:50:24
前言
當很多人還在適應GPT系列人工智能(文中或稱AI:Artificial Intelligence)工具給生活帶來的改變時,OpenAI又打開了新局面。2024年初,OpenAI發(fā)布了第一款文生視頻模型——Sora,能夠生成一分鐘的高保真視頻,一石激起千層浪。
Sora和ChatGPT的誕生讓我們看到,技術的發(fā)展或許是有跡可循的,但技術的突破節(jié)點卻難以預測。
2023年,ChatGPT風靡全球。其憑借強悍的產品性能,文能寫詩,武能編碼,上知天文,下知地理,推出僅僅2個月后,ChatGPT的月活躍用戶就已經達到1億人次,成為歷史上用戶數量增長最快的消費類應用。在ChatGPT發(fā)布后,OpenAI又陸續(xù)推出了GPT-4和GPT-4o。在這一年時間里,OpenAI還做了許多事情:開放ChatGPT API和GPT-4 API,讓產品開發(fā)者無須自主研發(fā)類GPT,通過API即可進行二次應用;推出GPT系列的微調功能,讓企業(yè)和個人都可以得到專屬的GPT;上線GPT商店,不僅壯大了自身的AI生態(tài),還擴張了商業(yè)化的路徑;給機器人裝上GPT大腦,讓機器人得到了智能升級;將GPT融入可穿戴硬件,成為“AI時代的新iPhone”……
OpenAI的每一步舉措,讓以GPT為代表的大模型朝著人類社會更進一步。GPT已然征服了許多行業(yè):微軟的Bing整合了GPT-4,帶給人們全新的搜索體驗;經典辦公軟件借助GPT進行了升級;GPT成了許多設計師的必備工具;新聞的撰寫與傳播有了GPT的參與;醫(yī)療、金融、法律、教育……許多行業(yè)都有了GPT的痕跡。
Sora標志著AI技術在內容創(chuàng)造領域的一個重要進步。本質上,Sora就是一個“文生視頻工具”,能夠根據用戶提供的自然語言指令生成高清視頻內容。這意味著用戶可以通過簡單的文本描述,讓Sora創(chuàng)造出幾乎任何場景的視頻,從而極大地拓寬了視頻內容創(chuàng)作的邊界和可能性。但Sora又不只是一個“文生視頻工具”,它能夠理解用戶的需求,以及掌握這種需求在物理世界中的存在方式。也就是說,Sora能夠通過學習視頻來理解現實世界的動態(tài)變化,并用計算機視覺技術模擬這些變化,從而創(chuàng)造出新的視覺內容。Sora學習的不僅僅是視頻,也不僅僅是視頻里的畫面、像素點,還在學習視頻中世界的“物理規(guī)律”。Sora最終是一個通用的“現實物理世界模擬器”,即為真實世界建模。
技術進化的新時代已然開啟。從ChatGPT到GPT-4o,再到Sora,人工智能正在跨越機械邏輯的邊界,模擬并延展人類思維維度,從被動響應走向主動理解。本書基于此,以ChatGPT為起點,以GPT系列的發(fā)展為主線,介紹了ChatGPT的誕生和爆發(fā),以及ChatGPT的真正價值,闡述了ChatGPT為什么能開啟一個AI新時代,這個新時代是怎樣的。本書還對ChatGPT發(fā)布后,OpenAI的行動(發(fā)布GPT-4和GPT-4o、開放API和微調功能、上線GPT商店等)進行了細致介紹和分析。可以說,OpenAI已經成為人工智能領域當之無愧的引領者,不僅逐漸形成了一個完善的AI應用生態(tài),更是打造出了一條通用人工智能的技術路線。對OpenAI的行動和計劃有所了解,不僅有助于認識快速更迭的人工智能技術,還將進一步理解這個充滿變化的世界。
當然,除GPT系列和Sora外,本書還對OpenAI的競品公司進行了介紹和分析,包括頭部科技公司谷歌、從元宇宙轉向AI的Meta、OpenAI的最強競爭對手Anthropic、馬斯克成立的人工智能公司xAI等。書中還對ChatGPT掀起的“百模大戰(zhàn)”進行了分析,并對大模型的下一步發(fā)展進行了預測。本書文字表達通俗易懂、內容富于趣味,能幫助讀者了解人工智能大模型的發(fā)展脈絡,并在紛繁的信息中梳理出人工智能行業(yè)變革以及即將到來的通用人工智能時代的線索。
人工智能不僅是當今的科技標簽,它所引導的科技變革更是在雕刻著這個時代,為此,我們需要有所準備。
陳根
2024年春