RAG加速器：数据抽取服务

用户6750

用户3862

2025年11月26日修改

✏️

原创 AI小智 AI小智 2024-03-11 08:30 湖北

原文地址：https://mp.weixin.qq.com/s/cXnCnyJZ_XwIhWf-48FHCg

本文译自Use Case Accelerant: Extraction Service一文。介绍了基于LLM优化数据抽取，提升RAG效能的实现思路，以及工程实践。本系列合集，点击链接查看

common.docs_name - LarkCCM_Docs_Menu_Image

RAG加速器：数据抽取服务

今日，我们激动地公布了我们最新的开源项目——用例加速器：一项数据抽取服务。大型语言模型（LLM）极其擅长从非结构化数据中抽取出有结构的信息。我们在最近的几个版本中不断优化LangChain开源库中的数据抽取支持，现在，我们更进一步推出了一个起始知识库，帮助你打造专属的数据抽取应用工具。​

这个起始知识库包括了一个基础网络应用程序模板，你可以基于此模板，打造出能让你团队中非技术成员也能轻松上手使用LLM进行数据抽取的自助式应用。​

接下来我们会更详尽地介绍这项数据抽取服务，但在此之前，先来聊聊数据抽取这个用例以及LLM在其中能发挥哪些作用。​

数据抽取用例

为了从诸如PDF文档、幻灯片、网站以及产品评价和用户反馈等非结构化数据中汲取宝贵的商业洞察，企业不惜投入巨大的资源和精力。​

已部署的数据抽取解决方案通常采用手工揉合自动化的混搭手段，自动化抽取部分或者是依靠手工定制规则，或者是使用特定的机器学习（ML）模型。​

尽管自动化解决方案愈来愈偏向使用ML技术而不是基于规则的方法，意识到ML驱动下的系统通常更具扩展性和可维护性，之前的ML解决方案通常需要大量工作量来构建和维护，并且需要大量标注过的数据来训练模型，这成为了它们的一大痛点。​

如今，大型语言模型（LLM）作为一种全新且强大的ML技术，展现出在信息抽取应用领域的潜能。只需向LLM提供合适的命令（即指令）和范例，它就能够适应特定的数据抽取任务。因此，LLM显著降低了采用AI驱动进行信息抽取的门槛。​

新一代的信息抽取解决方案将构建在LLM之上。这些方案仍然需要人工介入，以向LLM提供反馈和指导，并可能需要一些自定义规则和启发式方法来处理特殊情况。然而，相比老一代方案，新方案在维护和扩展上都有显著提升。​

基于LLM的解决方案

如何利用LLM进行信息抽取呢？下面，我们将介绍构建一个抽取服务需要的基本组件和要考虑的要点。​

源数据

使用LLM抽取信息的第一步是将希望抽取信息的原始数据转换成文本格式。LangChain提供了数百种文档加载器，你可以依此将PDF等文件格式转换为文本格式。​

加载文本后就需要考虑如何向LLM呈现这些文本。最直接的方式是将整个文本都呈现给LLM，适用于短文本。然而，对于较长的文本，这种方法有几个弊端。首先，长文本可能超出了LLM处理的上下文窗口范围。其次，就算全部文本都在处理窗口内，LLM在处理更长的输入时表现往往下降。再者，即使结果还可以，整个推断过程也会比较耗时。​

RAG加速器：数据抽取服务​

RAG加速器：数据抽取服务