分享
通过增强PDF结构识别,革新检索增强生成技术(RAG)
输入“/”快速插入内容
通过增强PDF结构识别,革新检索增强生成技术(RAG)
飞书用户6750
2024年1月31日修改
🏖️
原创 创新而务实的 北京庖丁科技
2024-01-31 14:37
发表于北京
写在前面:
我们已在 arXiv 上发布了本篇文章的英文版本,如需阅读英文版,请点击文末的「阅读原文」跳转阅读。
/
摘要
/
尽管大语言模型(LLM)在自然语言生成方面取得了巨大的进展,
但对于专业知识问答领域来说,结合检索增强生成技术(RAG)可以更好地利用领域专家知识、提供解释性的优势,提高问答准确率
。
目前,主流的基础模型公司已经开放了嵌入向量(Embedding)和聊天 API 接口,LangChain 等框架也已经集成了 RAG 流程,似乎 RAG 中的关键模型和步骤都已经得到解决。这就引出一个问题:
目前专业知识的问答系统是否已经趋于完善?
本文指出当前的主要方法都是以获取高质量文本语料为前提的。然而,因为大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。
我们对来自真实场景的专业文档,其中的数百个问题进行了实证 RAG 实验。
结果显示,配备了全景和精准 PDF 解析器的 RAG 系统的 ChatDOC(海外官网:
chatdoc.com
)可以检索到更准确和完整的文本段,因此能够给出更好的回答。
实验证明,ChatDOC 在近 47%的问题上表现优于 Baseline 模型,在 38%的问题上与 Baseline 模型表现持平,仅在 15%的问题上表现落后于 Baseline 模型。这表明,
我们可以通过增强 PDF 结构识别来革新检索增强生成技术(RAG)。
1
引言
大语言模型的训练数据主要来源于公开互联网资源,包括网页、书籍、新闻和对话文本。这意味着大语言模型主要依赖互联网资源作为它们的训练数据,这些资源量级大、种类繁多且易于访问,支持大语言模型扩展其性能。
然而,在垂直领域应用中,
专业任务需要大语言模型利用领域知识(Domain knowledge)。
遗憾的是,这些知识是私有数据,并不属于它们预训练数据中的一部分。
为大语言模型配备领域知识的一种流行方法
是检索增强生成(Retrieval-Augmented Generation,以下简称 RAG)。
RAG 框架回答一个问题需要四个步骤:用户提出问询;系统从私有知识库中检索相关内容;将相关内容与用户查询合并为上下文;最后请求大语言模型生成答案。
图 1
通过一个简单示例说明了这个过程。该过程反映了遇到问题时的典型认知过程,包括查阅相关参考资料,然后推导出答案。在这个框架中,关键部分是要
准确地检索相关信息
,这对 RAG 模型的效力至关重要。
图 1
检索增强生成(RAG)的工作流
然而,检索 PDF 文档的过程充满挑战,经常会出现文本提取的不准确和 PDF 文档内表格的行列关系混乱等问题。
因此,
在 RAG 之前,我们需要将大型文档转换为可检索内容
。转换涉及以下几个步骤,如
图 2
所示:
图 2
将 PDF 文档转换为可检索内容的过程