分享
谷歌Gemini多模态提示词培训课——Part1
输入“/”快速插入内容
谷歌Gemini多模态提示词培训课——Part1
飞书用户4771
飞书用户6351
2024年11月4日修改
本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程,课程中使用了Gemini模型作为教学模型,教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分,在其之中也缺乏了某些概念。有鉴于此,我截取了部分教程内容,并适当混合了一些入门概念。将其进行重新整理和刊发,以增强其普世价值。(如有需要,请访问
原版在线课程
)
在这个系列中你可以学到:
1.
了解什么是多模态大模型
2.
了解Gemini系列模型
3.
使用 Gemini API 进行多模态提示词最佳实践(其提示词理念也同样也适用于完整AI产品的交互,0代码读者不必过多担心)
一、什么是多模态大模型(MLLM)
多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等,通过整合这些多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息。
这种多元化的数据处理能力使得 MLLM 在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息,这些模型能够得出更加全面和准确的结论,从而在各种应用场景中发挥重要作用。
下方是一个典型 MLLM 架构的示意图。它包括一个编码器、一个连接器和一个 LLM。可以选择性地在 LLM 上附加一个生成器,以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为三类:基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,而最后一种类型则在 LLM 内部实现特征级融合。
注:词元=Token
二、 为什么要学习多模态大模型
多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。它还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。
假设有人想为一只猫买新衣服,他可以给模型提供两张猫的图片。同时,他可以提供一个文本提示,询问什么样的衣服适合这只猫。图像和文本将作为模型的输入。模型随后会给出响应,建议最适合这只猫的衣服。基于这两张图片,输入可以是交错的,意味着它可以是文本、图像、音频的混合。在这个例子中,有一个图像,然后是文本提示,接着是另一个图像。这个顺序可以改变,而且顺序很重要。课程稍后会详细讨论这一点。