官术网_书友最值得收藏!

04 預訓練模型:降低應用開發門檻

實際上AIGC并不是一個新的概念,早在幾年之前AI領域便進行了內容生成方面的研究,但基本處于實驗階段,因為訓練成本高、使用門檻高、生成內容的質量不夠理想等方面的原因,無法推至大眾面前。但預訓練模型則使得AIGC相關產品獲得了質的飛躍,它一方面能夠克服此前模型的缺陷,滿足不同的功能、場景和任務的需求;另一方面也能夠有效提高AIGC的產業化程度。

深度學習模型的訓練數據越多,模型的綜合性能、穩健性、處理能力也會進一步提升。由此,模型訓練的數據資源量成為提升市場競爭力的重要方面。但單純的海量數據“投喂”不是真的技術創新,也不能完全解決深度學習模型所面臨的問題。同時,大規模訓練數據將帶來更高的算力要求和成本投入,難以在現實場景中落地部署;海量數據也不等同于高質量數據,可能會對模型學習起到反作用,其收益和投入成本可能是不匹配的。

目前,人工智能機器學習領域已經出現了產業鏈分化的端倪。如果用學歷來比喻模型的訓練程度,那么初始模型的訓練可能是從幼兒園開始,相對成熟的模型我們暫且定位到大學水平。模型的成長需要投入大量時間和資金成本,預訓練是用以低成本獲取的大規模數據來訓練模型,使其成長為“大模型”——具備一定的通用能力或共性,這相當于高中水平;然后依據具體應用領域的需求,用該領域的特定標注數據對其進行定向訓練和調整,使其成長到大學水平,真正投入應用。

預訓練模型可以被復用且具有較強的擴展性,在很多領域都有出色表現。但目前的問題在于,大模型所帶來的商業價值還無法補足訓練大模型消耗的成本。怎樣推動“大模型”向“大應用”轉變,是業界亟須解決的問題。AIGC的技術進步,使大模型的商業化路徑明朗起來。一方面,大模型企業可以為個人用戶提供“按需定制”的服務;另一方面,隨著云存儲、云計算使用量的上升,可以構建起多種類型的盈利模式。在未來,AIGC將進一步推廣,成為人們日常生活的重要組成部分;同時可以進一步與具體行業、領域、產業需求相結合,探索出一條能夠持續創造價值的商業化路徑。

預訓練模型通常是指代預訓練語言模型,即提前進行大規模數據訓練以便后期根據具體應用需求進一步開發的語言模型。早期的預訓練模型主要有Word2vec、GloVe和CoVe等,后來逐漸發展出自編碼語言模型(Autoencoder Language Model)和自回歸語言模型(Autoregressive Language Model)兩大主要分支,前者包括Bert、ALBert、RoBERTa等,后者則包括ELMo、XLnet和GPT等。2018年后,隨著GPT等模型的出現,“預訓練語言模型”一詞才真正普及開來,逐漸成為智能化產業普遍關注的話題。預訓練受到廣泛重視,意味著自然語言處理、機器學習進入了新的發展階段。

ChatGPT的橫空出世和備受熱捧展示了AI技術所擁有的強大發展潛力,為自然語言處理(Natural Language Processing,NLP)技術的發展指明了方向。NLP是人工智能理解人類語言并生成正確語言的關鍵基礎,包含自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generating,NLG)兩個重要方面。要使相關模型輸出正確的語句,就要對其進行大規模數據的訓練。例如,OpenAI發布的開源模型GPT-3,其訓練的參數量大約達到1750億,而能像真人一樣與人類互動聊天的機器人ChatGPT是在GPT-3.5的基礎上產生的,除了聊天,還能夠寫視頻腳本、郵件、代碼等。

NLP作為研究人與計算機交互的重要學科,預訓練語言模型的研究一直是此領域的重要基礎。從以往此方面的研究成果來看,最具有代表性的預訓練語言模型為Bert和GPT。由于Bert的語言模型基礎為DAE[注],因此其具備較強的對語言進行上下文表征的能力,能夠比較順暢地理解語言,但卻并不具備組織語言的能力,因此也就無法完成從理解到生成之間的連接。而GPT模型則克服了這一缺陷,這讓ChatGPT在具備語言理解能力的同時也能夠生成語言。

主站蜘蛛池模板: 社会| 云龙县| 集贤县| 宁德市| 常山县| 南皮县| 齐齐哈尔市| 佛山市| 清徐县| 沿河| 金华市| 安国市| 呼图壁县| 当雄县| 罗源县| 招远市| 买车| 阳西县| 长白| 内乡县| 曲靖市| 陆良县| 都匀市| 连城县| 乌兰察布市| 屯昌县| 甘德县| 岚皋县| 东城区| 嘉峪关市| 沂水县| 吉安县| 柳州市| 昌黎县| 响水县| 巫溪县| 缙云县| 多伦县| 阳谷县| 浏阳市| 汤原县|