分享
ComfyUI & LLM:如何在ComfyUI中高效使用LLM
输入“/”快速插入内容
📕
ComfyUI
&
LLM
:如何在ComfyUI中高效使用LLM
飞书用户8537
飞书用户778
2024年10月24日修改
1.
写在前面:
Hello!大家好。我是科林,是comfyui LLM party插件的开发者。
这个栏目的主要目的是讲解LLM(大语言模型)与ComfyUI结合的基础、进阶和高阶用法,主要围绕GitHub中已有中的LLM节点以及
comfyui_LLM_party
(
说明:根植于ComfyUI的大语言模型智能体节点
)的应用场景。
个人目前将ComfyUI中LLM应用粗略分为四大类:第一类:文本方面;第二类:图像视觉方面——VLM(带视觉的LLM);第三类:LLM Agent(大语言模型智能体);最后一类:其他,这一部分是独立于这些之外的LLM节点或功能。
1.
文本:
提示词扩写、提示词润色、与LLM对话;
2.
图像:
图像提示词反推(Joy Caption、Florence)、OCR、LoRA训练集图像打标;
3.
LLM Agent:
除上述所拥有的功能外,还有海量功能:如工具调用、长期/短期记忆(RAG、GraphRAG等)、本地/API大语言模型调用、封装ComfyUI工作流等。
🔄
这篇教程适用的人群:
•
社区用户:
无论你是学生还是企业中的职员或者其他任何角色,只要你在使用 ComfyUI 的过程中对 LLM 工具感到无助。你都可以随时打开这篇文档,按图索骥,找到属于你所需要的那个栏目——文本、图像、智能体或其他。当然我希望这粗略的四大类能够满足你对于 LLM 的大部分使用场景。如果没有,请在下方的联系方式中添加我的微信,把你的需求告诉我,我会尽我所能帮助到你。
•
开发者:
如果你是一名开发者,恰巧你对 ComfyUI 和 LLM 都感兴趣。我希望我的这篇文档能表达出我对于在 ComfyUI 中推广 LLM 使用的决心。如果你在阅读或者实际工作的过程中如果对于 LLM 的使用有好玩的想法,我很荣幸能够听到不同开发者对于 ComfyUI 中 LLM 使用的不同声音。
•
企业用户:
如果你是一名企业主或者团队主管,你对于 ComfyUI 和 LLM 的结合倍感未来可期,我希望这篇文档能够尽可能的站在一个宏观的视角,从文本、图像和智能体三个维度全面分析 LLM 与 ComfyUI 结合所产生的化学反应。当然,如果对于我们正在做的事情—也即 comfyui LLM party 智能体项目—感兴趣,也欢迎赞助或者与我们交流。
2.
前言
2.1
什么是LLM?
简单来说,LLM是一种非常聪明的人工智能系统,它能够通过学习大量的文字数据来理解和生成自然语言。你可以把它想象成一个超级有知识的朋友,能够回答你的各种问题、写故事、甚至帮你完成作文。
假设你有一个非常聪明的小朋友,在很小的时候,他就喜欢读书,而且读了很多很多书,比如童话书、科幻小说、历史书籍,还有各种百科全书。随着他读的书越来越多,他的知识越来越丰富,不仅能够轻松回答你提出的问题,还能自己编出有趣的故事来。
这个聪明的小朋友就像一个大型语言模型。不同的是,LLM不是真人,而是一个计算机程序,它可以处理和学习海量的文字数据。这些数据可以来自互联网、书籍、文章等各个地方。LLM通过不断学习这些数据,逐步提升自己的语言理解和生成能力。
再举一个使用搜索引擎查找某个问题的答案的例子。以前的搜索引擎可能只是简单地匹配关键词,给你一堆相关的网页链接。但是现在的搜索引擎背后可能就有LLM的支持,它不仅能理解你的问题,还能给出更准确、更完整的答案,有时甚至像一个真正的专家一样解答你的问题。
总的来说:
LLM(大型语言模型)是一种通过学习大量文本数据,能够理解和生成自然语言的人工智能系统。
2.2
什么是LLM Agent?
2.2.1
Agent
Agent(智能体)
是一种能够在环境中
自主感知、思考并采取行动的实体
。你可以把Agent想象成一个具有特定目标和行为能力的智能角色,它们可以根据环境变化做出相应的决策和反应。
2.2.2
LLM Agent
LLM Agent
是指结合大型语言模型(LLM)和自主智能体(Agent)特性的系统。这种系统能够利用大型语言模型的自然语言处理能力,理解用户的输入,并在此基础上进行智能决策和行动。
大语言模型-Agent框架
2.2.3
LLM Agent组成部分:
1.
规划(Planning)
◦
定义 :规划是Agent的思维模型,负责将复杂任务分解成可执行的子任务,并评估这些子任务的执行策略。
◦
实现方式 :通过使用大型语言模型的提示工程(如ReAct、CoT推理模式)来实现精准任务拆解和分步解决。
2.
记忆(Memory)
◦
定义 :记忆即信息存储与回忆,包括短期记忆和长期记忆。
◦
实现方式 :短期记忆用于存储对话上下文,支持多轮对话;长期记忆存储用户特征和业务数据,通常通过向量数据库等技术实现快速存取。
3.
工具(Tools)
◦
定义 :工具是Agent感知环境、执行决策的辅助手段,如API调用、插件扩展等。
◦
实现方式 :通过接入外部工具(如API、插件)扩展Agent的能力,例如使用插件解析文档、生成图像等。