- 多模態大模型:算法、應用與微調
- 劉兆峰
- 280字
- 2024-09-11 17:37:25
1.2.4 線性層和softmax層
解碼器最終的輸出是一個浮點向量,我們需要將其轉換為一個單詞。為了實現這一點,Transformer模型中使用了一個線性層,它是一個全連接神經網絡,將解碼器的輸出向量投影到一個更大的向量,稱為logits向量,它的維度和詞表大小一致,向量中的每一個元素對應一個詞元的分數。
接下來讓logits向量通過softmax層,將這些分數轉化為概率,確保所有概率都是正數且總和為1.0。最后選擇概率最大的元素對應的索引,并將與其關聯的詞元作為該時間步的輸出。
整個過程從線性層開始,通過線性層將解碼器的輸出轉換為一個向量。然后,該向量經過softmax層,將分數轉化為概率,選擇概率最大的單元格,并將與其關聯的單詞作為輸出內容。