AI学什么(第4期)：大型多模态模型是如何被训练出来的？

用户4242

2025年7月14日修改

大家好，我是蓝衣剑客，欢迎来到「AI学什么」——一个专注于AI科普的栏目。这个栏目的宗旨是"用最精彩的故事，讲述最硬核的知识"。在这里，你将看到深入浅出的AI核心技术解析，既不会被枯燥的技术细节困扰，也不会停留在肤浅的概念层面。通过生动的类比、通俗的语言和完整的故事，帮助你在轻松阅读中掌握那些看似难以理解的AI知识，培养应对AI时代的核心认知能力。无论你是AI领域的新手，还是希望加深理解的从业者，这里都能为你提供清晰的知识和独特的思考角度。​

common.docs_name - LarkCCM_Docs_Menu_Image

多感官整合

人类大脑是地球上最强大的多模态处理系统。当你走进一家咖啡店时，眼睛看到咖啡的深褐色，鼻子闻到醇厚的香气，耳朵听到咖啡机的嗡鸣声，大脑却能将这些完全不同的感官信号整合成一个统一的"咖啡店体验"。神经科学研究表明，我们的大脑有专门的区域负责这种感官整合——颞顶交界区(TPJ)和前额叶皮层协同工作，将视觉、听觉和嗅觉信号融合成统一的感知。​

这种多感官整合能力是人类认知的基础，也是我们从婴儿时期就开始发展的核心能力。婴儿通过同时看、听、触摸来认识世界，逐渐建立起不同感官之间的联系。正是这种整合能力，让我们能够在复杂的环境中高效生存，从混杂的信息中提取有意义的模式。​

而在AI的世界里，情况却大不相同。传统AI系统就像是先天感官受限的个体——语言模型只认字不认图，视觉模型只看图不懂字。它们就像《盲人摸象》里的盲人，各自只能感知真实世界的一个片段。​

这种局限性正在被打破。今天，多模态AI的出现，标志着机器智能向人类认知模式迈出了关键一步。它能看懂文字，也能理解图像，甚至能听声音、解读视频。几年前，这样的技术还只存在于科幻小说。如今，它已经走进现实，悄然改变我们与机器交流的方式。​

那么，AI是如何获得这种类似人脑的多感官整合能力？它的成长之路，又给我们带来了哪些启示？​

模态

说多模态之前，得先理解什么是"模态"。

人类感知世界的方式多种多样。眼睛看到颜色和形状，耳朵听到声音，手指感受温度和质地。每一种感官通道，就是一种不同的"模态"。​

AI世界里的模态也是这个道理，只不过更加直白——文本就是文本模态，图像就是视觉模态，声音就是音频模态。​

早期的模型通常只专注单一模态。就像有的人天生色盲，有的人天生失聪，传统的AI也是"先天残障"——语言模型只认字不认图，视觉模型只看图不懂字。它们就像《盲人摸象》里的盲人，各自只能感知真实世界的一个片段。​

拿早期的ChatGPT来说，无论你描述多么美丽的风景，它只能通过文字去理解，而永远无法"看到"。相反，早期的图像识别系统可以分辨出图片中有猫，却不能理解"猫"这个概念与"宠物"、"哺乳动物"的关系。​

多模态AI，就是打破这些界限的全能选手。

比如给它看一张猫的照片并问"这是什么动物？它是家养的还是野生的？"时，它能识别出图像中的猫，理解你的问题，并回答："这是一只家猫，从它戴的项圈和舒适的姿态来看，应该是宠物猫。"这种跨模态的理解和交流能力，让AI第一次真正接近了人类的感知方式。​

我们人类天生就是多模态的。看到苹果时，自然而然想到它的名称、口感、香气；听到熟悉的音乐，脑海中会浮现相关的画面和记忆。这种跨越感官的关联能力，看似平常，却是我们智能的核心特征。​

AI学什么(第4期)：大型多模态模型是如何被训练出来的？​

AI学什么(第4期)：大型多模态模型是如何被训练出来的？