📕
ComfyUI & LLM：如何在ComfyUI中高效使用LLM

飞书用户8537

飞书用户778

2024年10月24日修改

1.
写在前面：​

Hello！大家好。我是科林，是comfyui LLM party插件的开发者。

这个栏目的主要目的是讲解LLM（大语言模型）与ComfyUI结合的基础、进阶和高阶用法，主要围绕GitHub中已有中的LLM节点以及 comfyui_LLM_party（说明：根植于ComfyUI的大语言模型智能体节点）的应用场景。​

个人目前将ComfyUI中LLM应用粗略分为四大类：第一类：文本方面；第二类：图像视觉方面——VLM（带视觉的LLM）；第三类：LLM Agent（大语言模型智能体）；最后一类：其他，这一部分是独立于这些之外的LLM节点或功能。​

1.
文本：提示词扩写、提示词润色、与LLM对话；​

2.
图像：图像提示词反推（Joy Caption、Florence）、OCR、LoRA训练集图像打标；​

3.
LLM Agent：除上述所拥有的功能外，还有海量功能：如工具调用、长期/短期记忆（RAG、GraphRAG等）、本地/API大语言模型调用、封装ComfyUI工作流等。​

common.docs_name - LarkCCM_Docs_Menu_Image

🔄

这篇教程适用的人群:

•
社区用户：无论你是学生还是企业中的职员或者其他任何角色，只要你在使用 ComfyUI 的过程中对 LLM 工具感到无助。你都可以随时打开这篇文档，按图索骥，找到属于你所需要的那个栏目——文本、图像、智能体或其他。当然我希望这粗略的四大类能够满足你对于 LLM 的大部分使用场景。如果没有，请在下方的联系方式中添加我的微信，把你的需求告诉我，我会尽我所能帮助到你。​

•
开发者：如果你是一名开发者，恰巧你对 ComfyUI 和 LLM 都感兴趣。我希望我的这篇文档能表达出我对于在 ComfyUI 中推广 LLM 使用的决心。如果你在阅读或者实际工作的过程中如果对于 LLM 的使用有好玩的想法，我很荣幸能够听到不同开发者对于 ComfyUI 中 LLM 使用的不同声音。​

•
企业用户：如果你是一名企业主或者团队主管，你对于 ComfyUI 和 LLM 的结合倍感未来可期，我希望这篇文档能够尽可能的站在一个宏观的视角，从文本、图像和智能体三个维度全面分析 LLM 与 ComfyUI 结合所产生的化学反应。当然，如果对于我们正在做的事情—也即 comfyui LLM party 智能体项目—感兴趣，也欢迎赞助或者与我们交流。​

2.
前言​

2.1
什么是LLM？​

简单来说，LLM是一种非常聪明的人工智能系统，它能够通过学习大量的文字数据来理解和生成自然语言。你可以把它想象成一个超级有知识的朋友，能够回答你的各种问题、写故事、甚至帮你完成作文。​

假设你有一个非常聪明的小朋友，在很小的时候，他就喜欢读书，而且读了很多很多书，比如童话书、科幻小说、历史书籍，还有各种百科全书。随着他读的书越来越多，他的知识越来越丰富，不仅能够轻松回答你提出的问题，还能自己编出有趣的故事来。​

这个聪明的小朋友就像一个大型语言模型。不同的是，LLM不是真人，而是一个计算机程序，它可以处理和学习海量的文字数据。这些数据可以来自互联网、书籍、文章等各个地方。LLM通过不断学习这些数据，逐步提升自己的语言理解和生成能力。​

再举一个使用搜索引擎查找某个问题的答案的例子。以前的搜索引擎可能只是简单地匹配关键词，给你一堆相关的网页链接。但是现在的搜索引擎背后可能就有LLM的支持，它不仅能理解你的问题，还能给出更准确、更完整的答案，有时甚至像一个真正的专家一样解答你的问题。​

总的来说：LLM（大型语言模型）是一种通过学习大量文本数据，能够理解和生成自然语言的人工智能系统。​

2.2
什么是LLM Agent？​

2.2.1
Agent​

Agent（智能体）是一种能够在环境中自主感知、思考并采取行动的实体。你可以把Agent想象成一个具有特定目标和行为能力的智能角色，它们可以根据环境变化做出相应的决策和反应。​

2.2.2
LLM Agent​

LLM Agent是指结合大型语言模型（LLM）和自主智能体（Agent）特性的系统。这种系统能够利用大型语言模型的自然语言处理能力，理解用户的输入，并在此基础上进行智能决策和行动。​

大语言模型-Agent框架

2.2.3
LLM Agent组成部分：​

1.
规划（Planning）​
◦
定义 ：规划是Agent的思维模型，负责将复杂任务分解成可执行的子任务，并评估这些子任务的执行策略。​
◦
实现方式 ：通过使用大型语言模型的提示工程（如ReAct、CoT推理模式）来实现精准任务拆解和分步解决。​

2.
记忆（Memory）​
◦
定义 ：记忆即信息存储与回忆，包括短期记忆和长期记忆。​
◦
实现方式 ：短期记忆用于存储对话上下文，支持多轮对话；长期记忆存储用户特征和业务数据，通常通过向量数据库等技术实现快速存取。​

3.
工具（Tools）​
◦
定义 ：工具是Agent感知环境、执行决策的辅助手段，如API调用、插件扩展等。​
◦
实现方式 ：通过接入外部工具（如API、插件）扩展Agent的能力，例如使用插件解析文档、生成图像等。​