开发：RAG高阶技巧-如何实现窗口上下文检索

用户6750

用户8280

用户3862

2025年11月26日修改

🦄

原创 AI小智 AI小智 2024-01-29 08:30 发表于湖北

在本文中，我们将介绍一种提高RAG（Retrieval-Augmented Generation）模型检索效果的高阶技巧，即窗口上下文检索。我们将首先回顾一下基础RAG的检索流程和存在的问题，然后介绍窗口上下文检索的原理和实现方法，最后通过一个实例展示其效果。​

基础RAG存在的问题及解决方案

基础RAG检索流程

RAG是一种结合了检索和生成的AI应用落地的方案，它可以根据给定的问题生成回答，同时利用外部知识库（例如维基百科）来增强生成的质量和多样性。RAG的核心思想是将问题和知识库中的文档进行匹配，然后将匹配到的文档作为生成模型的输入，从而生成更加相关和丰富的回答。​

common.docs_name - LarkCCM_Docs_Menu_Image

RAG的检索流程可以分为以下几个步骤：

•
load：加载文档，将各种格式的文件加载后转化为文档，例如将pdf加载为文本数据，或者将表格转换为多个键值对。​

•
split：将文档拆分为适合向量存储的较小单元，以便于与向量存储，以及检索时的文档匹配，例如将“我是kxc。我喜欢唱跳，rap，和篮球。”拆分为“我是kxc。”和“我喜欢唱跳，rap，和篮。”两个数据分块（一般称之为chunk）。​

•
embedding：将文档用向量表示，例如使用BERT或TF-IDF等模型进行向量化。​

•
store: 将向量化后的数据分块，存入向量数据库。​

•
retrive：根据问题和文档的向量，计算它们之间的相似度，然后根据相似度的高低，选择最相关的文档作为检索结果，例如使用余弦相似度或点积等度量进行排序。​

•
query：将检索到的文档作为生成模型的输入，根据问题生成回答，例如使用GPT-3或T5等模型进行生成。​

基础RAG存在的问题

基础RAG的检索流程虽然简单，但是也存在一些问题，主要是在split和retrive两个步骤中。这些问题会影响RAG的检索效果，从而导致生成的回答不准确或不完整。​

•
split拆分的块太大，在retrive时，同一块中非相关的内容就越多，对问题的检索匹配度影响越大，会导致检索的不准确。例如，如果我们将维基百科中的一篇文章作为一个文档，那么这个文档可能包含很多不同的主题和细节，与问题的相关性会很低。如果我们将这个文档作为检索结果，那么生成模型可能会从中提取出一些无关或错误的信息，从而影响回答的质量。​

•
split拆分的块太小，检索的匹配度会提高，然而在最后的query环节，提供给llm使用的信息会由于缺少上下文的信息支撑，导致回答不准确。例如，如果我们将维基百科中的一篇文章拆分为多个句子，那么每个句子可能只包含一小部分的信息，与问题的相关性会很高。如果我们将这些句子作为检索结果，那么生成模型可能会从中提取出一些有用的信息，但是也可能会忽略一些重要的上下文信息，从而影响回答的完整性。​

解决方案-窗口上下文检索

开发：RAG高阶技巧-如何实现窗口上下文检索​

开发：RAG高阶技巧-如何实现窗口上下文检索