官术网_书友最值得收藏!

1.2.4 線性層和softmax層

解碼器最終的輸出是一個浮點向量,我們需要將其轉換為一個單詞。為了實現這一點,Transformer模型中使用了一個線性層,它是一個全連接神經網絡,將解碼器的輸出向量投影到一個更大的向量,稱為logits向量,它的維度和詞表大小一致,向量中的每一個元素對應一個詞元的分數。

接下來讓logits向量通過softmax層,將這些分數轉化為概率,確保所有概率都是正數且總和為1.0。最后選擇概率最大的元素對應的索引,并將與其關聯的詞元作為該時間步的輸出。

整個過程從線性層開始,通過線性層將解碼器的輸出轉換為一個向量。然后,該向量經過softmax層,將分數轉化為概率,選擇概率最大的單元格,并將與其關聯的單詞作為輸出內容。

主站蜘蛛池模板: 胶州市| 石棉县| 德江县| 山西省| 乌拉特中旗| 枞阳县| 大石桥市| 连平县| 岚皋县| 聂荣县| 积石山| 宁波市| 安新县| 昌平区| 锡林浩特市| 台山市| 彭泽县| 富顺县| 柳江县| 灵山县| 夏邑县| 阿坝| 志丹县| 成武县| 项城市| 安岳县| 三穗县| 莆田市| 上栗县| 永宁县| 金山区| 景谷| 澄城县| 延安市| 贵南县| 汪清县| 霍林郭勒市| 九江县| 西峡县| 黄陵县| 黄骅市|