官术网_书友最值得收藏!

1.2?AI大模型的智慧涌現

AI大模型的智慧涌現像一個擁有超級智能的大腦的機器人,它可以自己學習,通過不斷試錯和調整來提高自己的能力。當這個機器人經過了大量的訓練后,它就能夠處理復雜的任務,比如識別圖像、理解語言等。它可以通過學習海量的圖片,來判斷圖片中的物體是什么;還可以通過學習大量的文字,來理解文章的意思;甚至可以通過學習文化背景、歷史背景等一系列信息,來生成具有邏輯和情感的文本。之所以可以做到這些,是因為AI大模型的神經網絡有數百萬甚至數十億個參數,它可以通過這些參數來處理和分析復雜的信息,并給出正確的答案。

1.2.1 橫空出世的ChatGPT

ChatGPT是由OpenAI公司研發與創造的。OpenAI公司是由創業家Elon Musk、美國創業孵化器Y Combinator總裁Sam Altman、全球在線支付平臺PayPal的聯合創始人Peter Thiel等于2015年在舊金山創立的一家非營利的AI研究公司,得到多位硅谷重量級人物的資金支持,啟動資金高達10億美元[2]。OpenAI公司的創立目標是與其他機構合作進行AI方面的研究,并開放研究成果以促進AI技術的發展。


[2] 2015年1美元約合6.2元人民幣。

ChatGPT的全稱是“Chat Generative Pre-trained Transformer”,翻譯成中文是“聊天生成式預訓練變換器”。在ChatGPT出現之前,傳統的人工智能、機器學習和聊天對話軟件的功能主要局限于觀察、分析和內容分類以及圖像識別等。然而,以ChatGPT為代表的新型生成式AI實現了一項技術上的重大突破,它能夠生成全新的內容,而不局限于分析現有的數據。ChatGPT的技術核心是生成式AI。GPT(Generative Pre-Training,生成型預訓練)模型是一種自然語言處理(Natural Language Processing,NLP)模型,使用多層Transformer(變換器)來預測下一個單詞的概率分布,通過訓練基于大型文本語料庫學習的語言模式來生成自然語言文本。GPT-1到GPT-4的智能化程度不斷提升。

1. GPT-1的誕生

2018年6月,OpenAI公司首次公布了他們的研究成果:一篇名為“Improving Language Understanding by Generative Pre-Training”的論文。在這篇論文中,他們提出了一種全新的模型——GPT-1。它基于Transformer架構,使用大量的未標注文本數據進行訓練,以學習語言語法、語義和上下文信息。該模型的出現為自然語言處理領域帶來了新的突破,基于它能夠生成自然、連貫的文本,可將其廣泛應用于聊天機器人、智能客服、自動翻譯等領域。

2. GPT-2的進步

2019年2月,OpenAI公司再次發布了一篇突破性的論文“Language Models are Unsupervised Multitask Learners”。在這篇論文中,他們推出了GPT-2。與GPT-1相比,GPT-2更進一步,它是一種自然語言生成模型,其目標在于生成與人類語言更為相似的文本,并具備了多任務處理能力。2019年7月,Microsoft公司向OpenAI公司注資10億美元[3],并得到OpenAI技術的商業化授權,將OpenAI公司開發的產品與Microsoft公司開發的產品深度融合。GPT-2的出現為自然語言處理領域帶來了新的突破,它不僅提高了生成文本的質量和連貫性,而且擴展了應用場景。例如,在智能客服領域,GPT-2可以幫助企業自動回答用戶的問題和解決糾紛;在自動翻譯領域,GPT-2可以實現多種語言之間的互譯,促進國際交流和合作;此外,還可以將GPT-2用于文本摘要、語音識別等領域。


[3] 2019年1美元約合6.9元人民幣。

3. GPT-3的飛躍

2020年5月,OpenAI公司再次突破自我,發布了論文“Language Models are Few-Shot Learners”。在這篇論文中,他們詳細介紹了GPT-3。與GPT-2相比,GPT-3的應用場景、模型規模和性能表現都得到顯著提升。GPT-3在生成方面表現出強大的天賦:它可以閱讀摘要、聊天、續寫內容、編故事,甚至可以生成假新聞、釣魚郵件或在線進行角色扮演等。另外,它還支持許多其他的自然語言任務,如翻譯、問答、語義搜索等。與前兩個版本相比,GPT-3最大的不同在于它采用了更加復雜的架構和訓練方法。GPT-3中的每個神經元都與上一層的所有神經元和下一層的所有神經元連接,這種連接方式使得模型可以更好地捕捉上下文信息。此外,GPT-3還采用了多任務學習的方式進行訓練,使得模型可以同時處理多個不同的任務,從而提高模型的泛化能力。GPT-3的出現為自然語言處理領域帶來了新的突破。基于它可以生成更加自然、連貫的文本,可將它用于更多的應用場景。例如,可以用于自動翻譯任務,將一種語言的文本自動翻譯成另一種語言的文本;還可以用于語音識別任務,將語音轉換成文本;甚至可以用于文本生成任務,根據給定的主題或關鍵詞生成一篇文章或一個故事。

4. GPT-3.5的新篇章

2022年11月,OpenAI公司又邁出了新的一步,發布了一個名為text-davinci-003(常被稱為GPT-3.5)的模型。這個模型的特點在于,它以對話的方式進行交互,不僅可以回答問題,還可以承認自己的錯誤、質疑不正確的假設以及拒絕不恰當的請求。這一創新使得GPT-3.5在自然語言處理領域邁出了新的一步。兩個月后,基于GPT的ChatGPT的全球活躍用戶數量突破1億。Microsoft公司將ChatGPT視為新一代技術革命,并將ChatGPT整合到Bing搜索引擎、Office全家桶、Azure云服務、Teams程序等產品中。

5. GPT-4:更大規模的預訓練模型,開啟多模態學習時代

GPT-4嵌入了人類反饋強化學習以及人工監督微調等更先進的技術,因而具備理解上下文、連貫性高等諸多先進特征,解鎖了海量應用場景。在對話中,GPT-4會主動記憶先前的對話內容(上下文理解),并將這些內容用于輔助假設性的問題的回復,因而GPT-4可實現連續對話,從而提升交互模式下的用戶體驗。同時,GPT-4會屏蔽敏感信息,對于不能回答的內容也能給予相關建議?;贕PT-4的ChatGPT具備以下系統功能。

文本生成:能夠生成符合語法和語義規則的文本,可以用于生成文章、評論、對話等。

聊天機器人:可以用作聊天機器人,與用戶進行交流,回答用戶的問題或提供相關信息。

語言問答:能夠回答各種問題,包括事實性問題、知識性問題、推理性問題等。

語言翻譯:可以將一種語言的文本自動翻譯成另一種語言的文本,方便不同語言之間的交流。

自動文摘:可以根據輸入的文本生成摘要或總結,方便用戶快速了解文章或文檔的內容。

繪畫生成:可以根據用戶的文字描述生成相應的繪畫作品。

代碼生成:可以根據用戶的指令或代碼提示生成相應的代碼,方便程序員進行編程工作。

視頻生成:可以將文本或語音轉化為視頻,方便用戶進行視頻制作和編輯。

2024年2月,OpenAI公司再度發布突破性成果,推出全新模型Sora。Sora模型具備將文本線索轉化為時長可達1分鐘的高清視頻的能力,從而彰顯人工智能在視頻生成領域的重要進展。Sora模型能夠生成包含多個角色、特定類型運動以及精確主題與背景細節的復雜視頻。該模型不僅理解用戶在文本線索中提出的要求,而且能將要求與現實世界中存在的方式相結合,呈現真實的視頻效果。為展示Sora模型的強大功能,OpenAI公司在網站上分享了一段由該模型生成的視頻。視頻中,一對情侶在雪花紛飛的東京街頭漫步,櫻花花瓣與雪花共舞,營造出浪漫且唯美的氛圍。該技術不僅展示了人工智能在理解和創造復雜視覺內容方面的先進能力,而且給內容創作、娛樂和影視制作行業帶來了前所未有的挑戰和機遇。

6. ChatGPT生態:自動選擇組合各種功能

ChatGPT借助插件可以連接第三方應用程序。這些插件使得ChatGPT能夠與開發人員定義的API(Application Program Interface,應用程序接口)進行交互,自動選擇組合各種功能,以完成相應任務。目前OpenAI公司提供的ChatGPT插件的典型應用如下。

Web瀏覽器插件:ChatGPT會首先在互聯網上搜索問題的相關信息,然后給出具體答案。添加該插件后,ChatGPT不僅會自己看網頁,還能與網站互動。據OpenAI公司的相關介紹,現在其他服務(如體育比分、股票價格、新聞等)都成了ChatGPT的“眼睛和耳朵”。也就是說,借助Web瀏覽器插件,ChatGPT可以實時檢索網上的最新消息,而不是受限于2021年9月之前的過時訓練數據。

代碼解釋器:在一個沙盒和防火墻的執行環境中添加一個實時的Python代碼解釋器,“動嘴”編程,解決定量和定性的數學問題;進行數據分析和可視化;快速轉換文件格式。

語義搜索:對個人和組織文件進行語義搜索。OpenAI公司開源了知識庫檢索插件的代碼,允許用戶托管他們自己的數據,并使其在ChatGPT內部可訪問。使用這一插件可以從數據中獲取最相關的文件片段,如文件、筆記、電子郵件或公共文檔等。

總之,你可以通過插件,讓ChatGPT成為完全個性化、可定制的私人助理或公司助理。

隨著技術的不斷發展,ChatGPT的發展空間不斷拓寬。未來,OpenAI公司將繼續對ChatGPT進行優化和升級,以提高其性能并擴展其應用場景。例如,他們可能會增加訓練數據和模型參數數量;改進模型的架構和訓練方法;引入新的技術手段來提高模型的泛化能力和可解釋性等。此外,隨著自然語言處理技術的不斷發展,ChatGPT還將應用于更多的領域和場景中,例如,它可能會被應用于智能家居系統中,或者被應用于醫療領域、教育領域中,等等。未來,ChatGPT將為人類帶來更多的便利和創新。

1.2.2 Google公司的PaLM-E

PaLM是Google公司發布的參數量達到5400億的大模型,它能夠執行常識推理、算術推理、文本解釋、代碼生成和翻譯等任務。PaLM與思維鏈提示相結合時,在需要多個步驟推理的數據集上取得了顯著的性能提升。之后Google公司給出了自己對標GPT-4的大模型PaLM 2。據介紹,他們用了大量數學和科學數據集對PaLM 2進行訓練,相比2022年的PaLM模型,PaLM 2在多語言處理、推理和編碼能力上有了很大的提升。根據官方測試,PaLM 2的部分結果(如數學方面的結果)比GPT-4的還要好。Google公司后來對PaLM 2進行算法優化,使得它在體積上比PaLM要小,且整體性能更好、計算效率更高。PaLM 2支持100多種不同的語言和20多種編程語言(包括JavaScript、Python、Prolog、Verilog、Fortran等),支持多模態的PaLM 2還能理解和生成音視頻內容。

2023年3月,Google公司與德國柏林工業大學團隊聯手推出了PaLM-E。這一史上最大的視覺語言模型擁有高達5620億的參數量(GPT-3的參數量為1750億)。PaLM-E結合了PaLM-540B語言模型與ViT-22B視覺Transformer模型的優點,并因此而得名。這種結合賦予了PaLM-E強大的語言處理能力,同時使得它能從視覺數據中獲取信息。

PaLM-E的一個重要特性是,它借鑒了Google公司之前在ViT-22B視覺Transformer模型上的研發經驗,該模型已經接受過各種視覺任務(如圖像分類、對象檢測、語義分割和圖像字幕等)的訓練。PaLM-E的另一重要特性是,它能夠將連續觀察的圖像信息或傳感器數據編碼為一系列與語言標記大小相同的向量。這一設計使得模型能以與處理語言相同的方式“理解”感官信息,從而允許更自主的機器人控制。將PaLM-E集成到控制回路中,可以避免任務執行期間發生中斷。例如,在一個視頻示例中,盡管研究人員從機器人手中拿走了薯片并移動了它們,但機器人仍能找到薯片并再次抓取它們。

在AGI(Artificial General Intelligence,通用人工智能)領域中,PaLM-E的發布無疑是一項重大突破。根據ChatGPT項目的主要負責人John Schulman的觀點,未來幾年內,AI將能夠在大多數人類目前從事的工作上表現得比人類更好。

PaLM-E在實踐中的表現令人印象深刻。它能夠理解復雜的指令并生成行動計劃,以便在沒有人類干預的情況下執行任務。例如,給出一個高級指令“把抽屜里的薯片拿給我”,PaLM-E可以為具有手臂的移動機器人平臺生成一個行動計劃并讓其執行。

此外,PaLM-E具有彈性,可以對環境做出反應。在另一個示例中,相同的PaLM-E可以通過具有復雜序列的任務自主控制機器人,這些任務以前需要在人工的指導下完成。Google公司的研究論文詳細闡述了PaLM-E如何將指令轉化為行動:“我們展示了PaLM-E在具有挑戰性和多樣化的移動操作任務上的性能。機器人需要根據人類的指令規劃一系列導航和操縱動作。例如,給出指令‘我把飲料弄灑了,你能給我拿點東西來清理嗎’,機器人需要規劃一個包含‘1.找到海綿,2.撿起海綿,3.拿來,4.放下海綿’的序列給用戶。受這些任務的啟發,為了測試PaLM-E的具身推理能力,我們開發了3個用例,可供性預測、故障檢測和長期規劃。”

PaLM-E的推出標志著神經網絡在機器人控制領域取得了新的進展。Google公司并不是唯一一個致力于使用神經網絡進行機器人控制的研究公司。這項特殊的工作類似于Microsoft公司在論文“ChatGPT for Robotics: Design Principles and Model Abilities”中所做的工作,該論文提出了類似的將視覺數據和大模型結合起來進行機器人控制的方式。

除了在機器人技術領域的卓越表現以外,Google公司的研究者還發現了一個有趣的現象,這個現象明顯源于PaLM-E所依賴的大模型。PaLM-E展示了正遷移能力,即將從一項任務中學到的知識遷移到另一項任務的能力。與單任務機器人模型相比,PaLM-E的性能明顯更高。更大型的語言模型在視覺語言和機器人任務訓練過程中能更好地保持其語言能力。研究發現,模型規模越大,其在視覺語言和機器人任務訓練時保持語言能力的趨勢越明顯。PaLM-E-562B幾乎完全保持了其語言能力。

Google公司的研究人員計劃進一步探索PaLM-E在現實世界場景中的應用,如家庭自動化系統或工業機器人。他們希望PaLM-E能夠激發更多關于多模態推理和具身AI的研究熱潮?,F在,“多模態”這個詞變得越來越流行,因為許多公司正在研發能夠像人類一樣執行一般任務的人工智能系統。PaLM-E的出現,不僅推動了機器人技術的發展,也為其他領域帶來了新的可能性。例如,在智能家居領域,PaLM-E可以幫助家庭自動化系統更好地理解和執行,從簡單的物品識別和分類到復雜的規劃和決策的各種任務。

此外,PaLM-E的強大語言處理能力和視覺感知能力,使其在教育領域也有著廣闊的應用前景。通過PaLM-E,學生們可以以更自然的方式與機器人進行交互,從而獲得更豐富、更深入的學習體驗。

隨著ChatGPT的火爆和GPT-4的推出,越來越多的公司開始關注自然語言處理領域的大模型技術。我們可以預見,未來這一領域將會持續快速發展,并帶來更多的創新和應用。

1.2.3 百度公司的文心一言

百度公司的文心一言是其基于文心大模型技術推出的生成式對話產品,該產品于2023年3月正式啟動邀測。同年8月,文心一言向全社會全面開放。在隨后的12個小時中,文心一言迅速登上Apple Store免費應用排行榜首位,成為首個登上應用排行榜榜首的中文AI原生應用。

百度公司的文心一言已逐漸發展到能夠完成語言理解、語言生成和由文本生成圖像等任務,并且它與ChatGPT等生成式AI技術相似。具體來說,文心一言主要具有以下功能。

語言理解。文心一言能夠通過分析文本的語法結構和語義關系來理解用戶的問題或需求,從而給出相應的回答或解決方案。

語言生成。文心一言能夠根據用戶的需求或要求,生成符合語法規則和語義邏輯的文本,如文章、評論、對話等。

由文本生成圖像。文心一言能夠將文本轉化為圖像或圖形,從而幫助用戶更好地理解和可視化相關數據或信息。例如,給出“幫我畫深海里的古風女孩,側臉美顏,甜美微笑”的提示,文心一言可以生成圖1-2所示的圖像。

圖1-2 由文心一言生成的圖像

自動翻譯。文心一言能夠自動翻譯不同語言之間的文本或對話,從而幫助用戶更好地了解不同文化背景下的信息和知識。

情感分析。文心一言能夠分析文本中所表達的情感傾向和態度,從而幫助用戶更好地了解相關話題的背景和情感氛圍。

問答系統。文心一言能夠根據用戶的問題或需求,在內部知識庫或互聯網上搜索相關信息并給出相應的回答或解決方案。

智能客服。文心一言能夠根據用戶的需求或要求,提供相應的客服服務和解決方案,如自動回復、智能推薦等。

1.2.4 科大訊飛星火大模型

科大訊飛股份有限公司(以下簡稱“科大訊飛”)是我國領先的智能語音技術提供商,自成立以來一直致力于語音技術的研發和應用。

科大訊飛在2016年建立了深度學習平臺。該平臺為星火大模型的研發提供了強大的計算和數據處理能力。第一代星火大模型采用基于注意力機制的編碼器和解碼器結構,取得了較好的語音識別效果。在第一代星火大模型的基礎上,科大訊飛不斷對該模型進行優化和創新。隨后科大訊飛推出第二代星火大模型。該模型采用更深的網絡結構和更復雜的注意力機制,進一步提高了語音識別的準確率和健壯性。同時,科大訊飛也開始將星火大模型應用到更多的場景(如智能客服、語音轉寫、智能家居等)中。第三代星火大模型采用更深的網絡結構、更大的模型尺寸和更高效的訓練方法,進一步提升了語音識別的性能。同時,科大訊飛也開始將星火大模型應用到更多的自然語言處理任務(如機器翻譯、文本分類、情感分析等)中。

科大訊飛的星火大模型是針對語音識別、語音合成和自然語言處理等任務開發的深度學習模型。星火大模型的主要功能如下。

語音識別。星火大模型可以將輸入的語音信號轉化為文字,實現準確、高效的語音轉寫。同時,科大訊飛針對不同的應用場景和語料庫對模型進行優化,以提高模型的識別率和健壯性。

語音合成。星火大模型可以將輸入的文字轉化為自然流暢的語音,實現文本的朗讀和語音合成。與傳統的語音合成技術相比,星火大模型合成的語音更加自然、清晰,具有更好的音質和語感。

自然語言處理。星火大模型可以完成自然語言處理中的多種任務,如文本分類、情感分析、機器翻譯等。通過訓練模型,科大訊飛實現了對中文文本的自動分類和情感分析等功能,并取得了較好的效果。

聲紋識別。星火大模型可以實現聲紋識別功能,它能夠通過對輸入的語音信號進行特征提取和分析,實現對說話人身份的認證和識別。這一功能在金融、安全等領域具有廣泛的應用前景。

語音喚醒。星火大模型可以實現基于語音的喚醒功能,它能夠通過訓練模型來識別特定的喚醒詞或短語,實現對智能家居、車載娛樂等系統的控制和交互。

1.2.5 阿里云通義千問大模型

通義千問大模型是一款由阿里云開發的先進人工智能助手,其核心功能是提供精準、全面、人性化的語言理解和生成能力。通義千問大模型的設計理念旨在打破人機交互的界限,通過深度學習、自然語言處理、知識圖譜等先進技術,實現與用戶進行流暢、自然且富有洞察力的對話。

通義千問大模型的核心技術如下。

Transformer架構:該模型采用先進的Transformer神經網絡架構,通過自注意力機制實現對輸入文本序列中各位置信息的全局建模,提升了理解和生成復雜語言內容的能力。

大規模預訓練技術:利用海量互聯網文本進行預訓練,學習通用的語言表達,提高上下文理解能力。例如,通義千問大模型具有高達720億的參數量,這使得其在各種自然語言任務上具備強大的泛化性能和更高的智能化水平。

多模態融合(可能包含此核心技術):該模型若支持多模態功能,則整合了視覺、語音等多元數據模態的信息,可實現跨模態的語義理解和生成。

持續優化與微調:經過不斷迭代優化,針對特定任務或場景進行微調,以適應不同領域(如問答系統、對話交互、文檔撰寫、代碼生成等)的需求。

通過這些核心技術的綜合運用,通義千問大模型成為國內首批通過官方大模型標準評測,在通用性和智能性上達到高標準要求的模型,它還致力于打造開放的人工智能生態,賦能各行各業數字化轉型和智能化升級。

通義千問大模型的應用場景如下。

客戶服務??梢詫⑼x千問大模型用于客戶服務場景,提供24小時在線支持和解答。無論是在產品咨詢、售后服務,還是在投訴處理、滿意度調查方面,通義千問大模型都能夠提供高效、專業的服務。

教育培訓。可以將通義千問大模型用于教育培訓場景,提供個性化、智能化的學習輔導。無論是在知識講解、技能訓練,還是在職業規劃、心理疏導方面,通義千問大模型都能夠提供豐富、多元的資源和支持。

媒體傳播??梢詫⑼x千問大模型用于媒體傳播場景,提供自動化、定制化的內容生成。無論是在新聞報道、評論分析,還是在社交媒體運營、網絡營銷方面,通義千問大模型都能夠提供快速、精準的產出并進行推廣。

醫療健康??梢詫⑼x千問大模型用于醫療健康場景,提供智能、專業的醫療咨詢和健康管理服務。無論是在疾病診斷、治療方案規劃,還是在健康飲食、運動鍛煉方面,通義千問大模型都能夠提供科學、權威的建議和指導。

主站蜘蛛池模板: 隆德县| 建湖县| 马山县| 水富县| 武穴市| 正蓝旗| 镇宁| 莲花县| 行唐县| 沾化县| 宁波市| 古浪县| 临朐县| 北海市| 花莲县| 洛隆县| 宁陕县| 永登县| 瑞丽市| 射洪县| 江门市| 荃湾区| 丰县| 龙江县| 贺兰县| 周口市| 高碑店市| 宜章县| 那曲县| 温泉县| 淮滨县| 沙洋县| 从江县| 嘉黎县| 华宁县| 监利县| 大埔县| 禄丰县| 石狮市| 阿巴嘎旗| 桐梓县|