- 大語言模型:原理、應(yīng)用與優(yōu)化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 496字
- 2024-12-18 17:06:20
第1章 語言模型簡(jiǎn)介
語言模型(Language Model)是使用統(tǒng)計(jì)方法或者神經(jīng)網(wǎng)絡(luò)來計(jì)算單詞或單詞序列出現(xiàn)的概率的模型。通過語言模型,我們可以計(jì)算某個(gè)單詞或單詞序列在自然語言中出現(xiàn)的概率。例如,單詞序列w1,w2,…,wm的概率可以通過如下公式計(jì)算:

通過語言模型,我們還可以方便地估算在某個(gè)自然語言的上下文中下一個(gè)詞出現(xiàn)的概率。例如,我們把w1,w2,…,wi-1看作上下文,則某個(gè)單詞w出現(xiàn)在第i個(gè)位置上的概率為

由上面的公式可以看到,如果想使用語言模型,首先需要獲得每個(gè)單詞在多種上下文中的條件概率,而獲得這些條件概率的過程稱為訓(xùn)練語言模型。訓(xùn)練語言模型的邏輯比較簡(jiǎn)單,首先需要準(zhǔn)備一些文本語料并在這些文本中的某些位置選取一些單詞,然后讓語言模型根據(jù)上下文去預(yù)測(cè)這些位置上的單詞,并根據(jù)預(yù)測(cè)結(jié)果正確與否更新語言模型的參數(shù),用大量的文本數(shù)據(jù)不斷重復(fù)這個(gè)過程之后,我們最終會(huì)得到語言模型中各個(gè)單詞在不同上下文中的條件概率。
雖然不同語言模型的訓(xùn)練目標(biāo)基本一致,但是它們的技術(shù)特點(diǎn)和實(shí)際用途卻有很大的區(qū)別,我們將其歸類為傳統(tǒng)語言模型和大語言模型(Large Language Model,LLM)。本章將介紹這兩類模型的發(fā)展歷程和技術(shù)特點(diǎn),并對(duì)它們的應(yīng)用方式進(jìn)行比較和討論。
- Python人工智能
- 自然語言處理:基于預(yù)訓(xùn)練模型的方法
- 人工智能安全
- 小創(chuàng)客學(xué)AI
- 秒懂AI編程:零基礎(chǔ)搞定辦公自動(dòng)化
- 賢二機(jī)器僧漫游人工智能
- 統(tǒng)計(jì)學(xué)習(xí)必學(xué)的十個(gè)問題:理論與實(shí)踐
- 深度學(xué)習(xí)及加速技術(shù):入門與實(shí)踐
- 智能物聯(lián)技術(shù)
- 解碼智能時(shí)代2021:前沿趨勢(shì)10人談
- 機(jī)器學(xué)習(xí)中的概率思維
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)(基于R的統(tǒng)計(jì)學(xué)習(xí)方法)
- 機(jī)器學(xué)習(xí)基礎(chǔ):從入門到求職
- 擴(kuò)散模型從原理到實(shí)戰(zhàn)
- 大圣陪你學(xué)AI:人工智能從入門到實(shí)驗(yàn)(上冊(cè))