通过增强PDF结构识别，革新检索增强生成技术(RAG)

用户6750

用户3862

2025年11月26日修改

🏖️

原创创新而务实的北京庖丁科技 2024-01-31 14:37 发表于北京

写在前面：我们已在 arXiv 上发布了本篇文章的英文版本，如需阅读英文版，请点击文末的「阅读原文」跳转阅读。​

/ 摘要 /

尽管大语言模型（LLM）在自然语言生成方面取得了巨大的进展，但对于专业知识问答领域来说，结合检索增强生成技术（RAG）可以更好地利用领域专家知识、提供解释性的优势，提高问答准确率。​

目前，主流的基础模型公司已经开放了嵌入向量（Embedding）和聊天 API 接口，LangChain 等框架也已经集成了 RAG 流程，似乎 RAG 中的关键模型和步骤都已经得到解决。这就引出一个问题：目前专业知识的问答系统是否已经趋于完善？​

本文指出当前的主要方法都是以获取高质量文本语料为前提的。然而，因为大部分的专业文档都是以 PDF 格式存储，低精度的 PDF 解析会显著影响专业知识问答的效果。​

我们对来自真实场景的专业文档，其中的数百个问题进行了实证 RAG 实验。结果显示，配备了全景和精准 PDF 解析器的 RAG 系统的 ChatDOC（海外官网：chatdoc.com）可以检索到更准确和完整的文本段，因此能够给出更好的回答。

实验证明，ChatDOC 在近 47%的问题上表现优于 Baseline 模型，在 38%的问题上与 Baseline 模型表现持平，仅在 15%的问题上表现落后于 Baseline 模型。这表明，我们可以通过增强 PDF 结构识别来革新检索增强生成技术（RAG）。​

1 引言

大语言模型的训练数据主要来源于公开互联网资源，包括网页、书籍、新闻和对话文本。这意味着大语言模型主要依赖互联网资源作为它们的训练数据，这些资源量级大、种类繁多且易于访问，支持大语言模型扩展其性能。​

然而，在垂直领域应用中，专业任务需要大语言模型利用领域知识（Domain knowledge）。遗憾的是，这些知识是私有数据，并不属于它们预训练数据中的一部分。​

为大语言模型配备领域知识的一种流行方法是检索增强生成（Retrieval-Augmented Generation，以下简称 RAG）。​

RAG 框架回答一个问题需要四个步骤：用户提出问询；系统从私有知识库中检索相关内容；将相关内容与用户查询合并为上下文；最后请求大语言模型生成答案。​

图 1 通过一个简单示例说明了这个过程。该过程反映了遇到问题时的典型认知过程，包括查阅相关参考资料，然后推导出答案。在这个框架中，关键部分是要准确地检索相关信息，这对 RAG 模型的效力至关重要。​

图 1 检索增强生成(RAG)的工作流

然而，检索 PDF 文档的过程充满挑战，经常会出现文本提取的不准确和 PDF 文档内表格的行列关系混乱等问题。​

因此，在 RAG 之前，我们需要将大型文档转换为可检索内容。转换涉及以下几个步骤，如图 2 所示：​

图 2 将 PDF 文档转换为可检索内容的过程

通过增强PDF结构识别，革新检索增强生成技术(RAG)​