分享
AI学什么(第4期):大型多模态模型是如何被训练出来的?
输入“/”快速插入内容
AI学什么(第4期):大型多模态模型是如何被训练出来的?
用户4242
用户4242
2025年7月14日修改
大家好,我是蓝衣剑客,欢迎来到「AI学什么」——一个专注于AI科普的栏目。这个栏目的宗旨是"用最精彩的故事,讲述最硬核的知识"。在这里,你将看到深入浅出的AI核心技术解析,既不会被枯燥的技术细节困扰,也不会停留在肤浅的概念层面。通过生动的类比、通俗的语言和完整的故事,帮助你在轻松阅读中掌握那些看似难以理解的AI知识,培养应对AI时代的核心认知能力。无论你是AI领域的新手,还是希望加深理解的从业者,这里都能为你提供清晰的知识和独特的思考角度。
多感官整合
人类大脑是地球上最强大的多模态处理系统。当你走进一家咖啡店时,眼睛看到咖啡的深褐色,鼻子闻到醇厚的香气,耳朵听到咖啡机的嗡鸣声,大脑却能将这些完全不同的感官信号整合成一个统一的"咖啡店体验"。神经科学研究表明,我们的大脑有专门的区域负责这种感官整合——颞顶交界区(TPJ)和前额叶皮层协同工作,将视觉、听觉和嗅觉信号融合成统一的感知。
这种多感官整合能力是人类认知的基础,也是我们从婴儿时期就开始发展的核心能力。婴儿通过同时看、听、触摸来认识世界,逐渐建立起不同感官之间的联系。正是这种整合能力,让我们能够在复杂的环境中高效生存,从混杂的信息中提取有意义的模式。
而在AI的世界里,情况却大不相同。传统AI系统就像是先天感官受限的个体——语言模型只认字不认图,视觉模型只看图不懂字。它们就像《盲人摸象》里的盲人,各自只能感知真实世界的一个片段。
这种局限性正在被打破。今天,多模态AI的出现,标志着机器智能向人类认知模式迈出了关键一步。它能看懂文字,也能理解图像,甚至能听声音、解读视频。几年前,这样的技术还只存在于科幻小说。如今,它已经走进现实,悄然改变我们与机器交流的方式。
那么,AI是如何获得这种类似人脑的多感官整合能力?它的成长之路,又给我们带来了哪些启示?
模态
说多模态之前,得先理解什么是"模态"。
人类感知世界的方式多种多样。眼睛看到颜色和形状,耳朵听到声音,手指感受温度和质地。每一种感官通道,就是一种不同的"模态"。
AI世界里的模态也是这个道理,只不过更加直白——文本就是文本模态,图像就是视觉模态,声音就是音频模态。
早期的模型通常只专注单一模态。就像有的人天生色盲,有的人天生失聪,传统的AI也是"先天残障"——语言模型只认字不认图,视觉模型只看图不懂字。它们就像《盲人摸象》里的盲人,各自只能感知真实世界的一个片段。
拿早期的ChatGPT来说,无论你描述多么美丽的风景,它只能通过文字去理解,而永远无法"看到"。相反,早期的图像识别系统可以分辨出图片中有猫,却不能理解"猫"这个概念与"宠物"、"哺乳动物"的关系。
多模态AI,就是打破这些界限的全能选手。
比如给它看一张猫的照片并问"这是什么动物?它是家养的还是野生的?"时,它能识别出图像中的猫,理解你的问题,并回答:"这是一只家猫,从它戴的项圈和舒适的姿态来看,应该是宠物猫。"这种跨模态的理解和交流能力,让AI第一次真正接近了人类的感知方式。
我们人类天生就是多模态的。看到苹果时,自然而然想到它的名称、口感、香气;听到熟悉的音乐,脑海中会浮现相关的画面和记忆。这种跨越感官的关联能力,看似平常,却是我们智能的核心特征。