官术网_书友最值得收藏!

1.3.2 數據召回

數據召回部分的主要任務是從大型文本數據庫中檢索與輸入相關的信息。為了盡可能保證正確答案被送入生成器部分,數據召回部分的召回率顯得非常重要。一般來說,召回的數量越大,正確答案被召回的概率也就越高,但同時會面臨大模型上下文長度限制的問題。

許多開源博客或框架在這部分的流程中都采用向量搜索出最相近的k個候選。例如,如果我們正在構建一個問答系統,并使用向量數據庫存儲相關數據塊,可以為用戶的問題生成向量,對向量數據庫中的向量進行相似性搜索并檢索最相似的數據塊。除此之外,還可以根據用戶問題,對同一數據庫進行混合搜索或使用多個數據庫進行搜索,并將結果組合起來作為生成器的上下文進行傳遞。

關于檢索這部分,還有許多提高檢索效果的技巧,這會引入更多的小模塊,例如候選重排、大模型輔助召回等,這些都屬于數據檢索的范疇。在后續章節中,我們會介紹許多數據檢索方面的技巧,以便在考慮大模型上下文長度的同時盡可能提高正確答案的召回率。

主站蜘蛛池模板: 正安县| 曲阳县| 临沂市| 黑龙江省| 宁南县| 吕梁市| 尚志市| 乌拉特中旗| 康乐县| 页游| 长海县| 攀枝花市| 托里县| 车致| 运城市| 瓦房店市| 内丘县| 庄浪县| 肇庆市| 石门县| 滕州市| 页游| 喜德县| 中方县| 凭祥市| 信阳市| 澳门| 三江| 台山市| 玉屏| 铜山县| 岑溪市| 普洱| 沈阳市| 浦城县| 阿坝县| 丰原市| 聊城市| 贵德县| 星座| 常宁市|