融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

飞书用户6750

2024年4月7日修改

🥛

原创吕明塔罗烩 2024-03-29 18:57 北京

原文地址：https://mp.weixin.qq.com/s/ZS57syJORHibJrOnkoQRoQ

本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一，同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考，以展望并探索当下面向未来的AGI->ASI的路径可行性。正如前几日AI一姐李飞飞所说，人工智能即将迎来它的「牛顿时刻」​

本篇文章拟分为「上篇」「中篇」「下篇」

作者：吕明，坐标西二旗，技术探索方向LLM/RL/AGI/AI4S..

common.docs_name - LarkCCM_Docs_Menu_Image

想回顾「上篇」的小伙伴请参考如下链接：

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」 (qq.com)

「中篇」

「系统一 · 快思考与系统二 · 慢思考」的本质&阐释：

细心的读者可能会在上篇的内容预告与中篇内容的更新中对比发现，将「系统一 · 快思考与系统二 · 慢思考的本质&阐释」与「LLM×RL本质&阐释」做了先后调换（相信大家从这里也能推断出「中篇」和「下篇」的撰写是在发布「上篇」后才进行撰写的，并没有提前写好:），之所以进行调换，更多考虑是能够从更根本的问题出发。通过深入的探究快与慢思考的表象的差异性和智能的普遍性，能够帮我们更加深刻的去理解推理或思考这一过程本质，并在此基础上形成一定的基础理论观点或假设，更好的对「LLM×RL本质&阐释」内容进行阐释，在阐释过程中将会发现与本节中所提及的系统二慢思考有着很大的影射和关联。​

另外，在正式进入本节正式内容阐释之前，考虑到「上篇」中部分内容较为晦涩难懂且内容繁杂，因此想上来就开门见山的为读者抛出一些相对明确的观点，这样在后续的step by step阐释中通过这样一个引子帮助读者能够有一个更好的阅读预期。​

我想以前几天前(2024年3月)我在知乎的一个回答来抛出这一观点：​

题主问题：

大模型的本质就是预测下一个词是什么，所有的涌现或者智能都是基于此。那么人类的思维是不是也是这个样子呢？看样子有点像，因为类似思维链的技巧（一步步的思考等）其实对大模型和人类都有效。​

更进一步的问题是，如果没有语言那么人类还能产生理性的思维么？​

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」​

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」