谷歌Gemini多模态提示词培训课——Part1

飞书用户4771

飞书用户6351

2024年11月4日修改

本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程，课程中使用了Gemini模型作为教学模型，教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分，在其之中也缺乏了某些概念。有鉴于此，我截取了部分教程内容，并适当混合了一些入门概念。将其进行重新整理和刊发，以增强其普世价值。（如有需要，请访问原版在线课程）

在这个系列中你可以学到：

1.
了解什么是多模态大模型​

2.
了解Gemini系列模型​

3.
使用 Gemini API 进行多模态提示词最佳实践（其提示词理念也同样也适用于完整AI产品的交互，0代码读者不必过多担心）​

一、什么是多模态大模型（MLLM）

多模态大模型（MLLM）是一种在统一的框架下，集成了多种不同类型数据处理能力的深度学习模型，这些数据可以包括文本、图像、音频和视频等，通过整合这些多样化的数据，MLLM 能够更全面地理解和解释现实世界中的复杂信息。​

这种多元化的数据处理能力使得 MLLM 在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息，这些模型能够得出更加全面和准确的结论，从而在各种应用场景中发挥重要作用。​

common.docs_name - LarkCCM_Docs_Menu_Image

下方是一个典型 MLLM 架构的示意图。它包括一个编码器、一个连接器和一个 LLM。可以选择性地在 LLM 上附加一个生成器，以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征，这些特征经由连接器处理，使 LLM 能更好地理解。连接器大致可分为三类：基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合，将特征处理成词元，与文本词元一起发送，而最后一种类型则在 LLM 内部实现特征级融合。​

注：词元=Token

二、为什么要学习多模态大模型

多模态技术可以从图像中提取文本，使从表情包或文档扫描中提取文本成为可能。它还能理解图像或视频中发生的事情，识别物体、场景，甚至情绪。​

假设有人想为一只猫买新衣服，他可以给模型提供两张猫的图片。同时，他可以提供一个文本提示，询问什么样的衣服适合这只猫。图像和文本将作为模型的输入。模型随后会给出响应，建议最适合这只猫的衣服。基于这两张图片，输入可以是交错的，意味着它可以是文本、图像、音频的混合。在这个例子中，有一个图像，然后是文本提示，接着是另一个图像。这个顺序可以改变，而且顺序很重要。课程稍后会详细讨论这一点。​

谷歌Gemini多模态提示词培训课——Part1​

谷歌Gemini多模态提示词培训课——Part1