- 自然語言處理導論
- 張奇等
- 925字
- 2023-11-17 16:47:06
1.2.4 基于大模型的方法
大模型是大規模語言模型(Large Language Model)的簡稱。從2018年開始以BERT[29]、GPT[30]為代表的預訓練語言模型相繼推出,它們在各種自然語言處理任務上都取得了非常好的效果。此后,語言模型的規模不斷擴大,2020年OpenAI發布的GPT-3模型[40]的規模達到了1750億個參數,Google發布的PaLM模型[41]的參數達到了5400億個。這種參數量級的語言模型很難再延續此前針對不同的任務而使用的預訓練微調范式。因此,研究人員開始探索使用提示詞(Prompt)模式完成各種類型的自然語言處理任務。此后又提出了指令微調(Instruction Finetuning)[42]方案,將大量各種類型的任務統一為生成式自然語言理解框架,并構建訓練語料進行微調。2022年ChatGPT所展現出的通用任務理解能力和未知任務泛化能力,使得未來自然語言處理的研究范式可能進一步發生變化。如圖1.6所示,基于大模型的自然語言處理方法的基本流程包括大規模語言模型構建、通用能力注入和特定任務使用三個主要步驟。

圖1.6 基于大模型的自然語言處理方法的基本流程
在大規模語言模型構建階段,通過大量的文本內容訓練模型對長文本的建模能力,使得模型具有語言生成能力,并使得模型獲得隱式的世界知識。由于模型參數量和訓練數據量都十分龐大,普通的服務器單機無法完成訓練過程,因此需要解決大模型的穩定分布式架構和訓練問題。在通用能力注入階段,利用包括閱讀理解、情感分析、信息抽取等現有任務的標注數據,結合人工設計的指令詞對模型進行多任務訓練,從而使得模型具有很好的任務泛化能力,能夠通過指令完成未知任務。特定任務使用階段則變得非常簡單,由于模型具備了通用任務能力,只需要根據任務需求設計任務指令,將任務中所需處理的文本內容與指令結合,然后就可以利用大模型得到所需的結果。
如果該范式在非常多的任務上都達到了目前基于預訓練微調范式的結果,那么就會使得自然語言處理產生質的飛躍。突破了傳統自然語言處理需要針對不同的任務進行設計和訓練的瓶頸,任務可以不需要預先給定,僅依賴很少的任務特定標注數據,或者完全不依賴任何任務的有監督數據就可以得到相應的結果。當然,這種方法也僅僅剛剛展露出一定的希望,當前使用該范式的大模型在絕大部分任務上所取得的效果仍然與基于預訓練微調范式的結果有很大的差距,模型參數量太大導致訓練和使用的成本過高……這些問題都亟待研究。