書名: 大模型RAG實戰:RAG原理、應用與系統構建作者名: 汪鵬 谷清水 卞龍鵬本章字數: 409字更新時間: 2024-10-29 18:53:32
1.3.2 數據召回
數據召回部分的主要任務是從大型文本數據庫中檢索與輸入相關的信息。為了盡可能保證正確答案被送入生成器部分,數據召回部分的召回率顯得非常重要。一般來說,召回的數量越大,正確答案被召回的概率也就越高,但同時會面臨大模型上下文長度限制的問題。
許多開源博客或框架在這部分的流程中都采用向量搜索出最相近的k個候選。例如,如果我們正在構建一個問答系統,并使用向量數據庫存儲相關數據塊,可以為用戶的問題生成向量,對向量數據庫中的向量進行相似性搜索并檢索最相似的數據塊。除此之外,還可以根據用戶問題,對同一數據庫進行混合搜索或使用多個數據庫進行搜索,并將結果組合起來作為生成器的上下文進行傳遞。
關于檢索這部分,還有許多提高檢索效果的技巧,這會引入更多的小模塊,例如候選重排、大模型輔助召回等,這些都屬于數據檢索的范疇。在后續章節中,我們會介紹許多數據檢索方面的技巧,以便在考慮大模型上下文長度的同時盡可能提高正確答案的召回率。
推薦閱讀
- FuelPHP Application Development Blueprints
- OpenCV實例精解
- Web Scraping with Python
- Learning ELK Stack
- Learning Three.js:The JavaScript 3D Library for WebGL
- Oracle Exadata專家手冊
- iOS開發實戰:從入門到上架App Store(第2版) (移動開發叢書)
- Mastering C++ Multithreading
- 小型編譯器設計實踐
- 大話Java:程序設計從入門到精通
- Python數據可視化之美:專業圖表繪制指南(全彩)
- Java Web應用開發給力起飛
- Oracle 12c從入門到精通(視頻教學超值版)
- 基于MATLAB的控制系統仿真及應用
- React.js實戰