飞鸟派对50000

書名：大模型RAG實戰：RAG原理、應用與系統構建
作者名：汪鵬谷清水卞龍鵬
本章字數： 409字
更新時間： 2024-10-29 18:53:32

1.3.2 數據召回

數據召回部分的主要任務是從大型文本數據庫中檢索與輸入相關的信息。為了盡可能保證正確答案被送入生成器部分，數據召回部分的召回率顯得非常重要。一般來說，召回的數量越大，正確答案被召回的概率也就越高，但同時會面臨大模型上下文長度限制的問題。

許多開源博客或框架在這部分的流程中都采用向量搜索出最相近的k個候選。例如，如果我們正在構建一個問答系統，并使用向量數據庫存儲相關數據塊，可以為用戶的問題生成向量，對向量數據庫中的向量進行相似性搜索并檢索最相似的數據塊。除此之外，還可以根據用戶問題，對同一數據庫進行混合搜索或使用多個數據庫進行搜索，并將結果組合起來作為生成器的上下文進行傳遞。

關于檢索這部分，還有許多提高檢索效果的技巧，這會引入更多的小模塊，例如候選重排、大模型輔助召回等，這些都屬于數據檢索的范疇。在后續章節中，我們會介紹許多數據檢索方面的技巧，以便在考慮大模型上下文長度的同時盡可能提高正確答案的召回率。

官术网_书友最值得收藏!

大模型RAG實戰：RAG原理、應用與系統構建

1.3.2 數據召回