AIGC Weekly #83

⏰ 发表时间：2024-08-04

作者：歸藏

上周精选 ✦

Google 上周也开始发力了，先后发布了 Gemini 1.5 Pro 和 Gemma 2 2B 模型。​

其中 Gemini 1.5 Pro 0801 在 LLM 竞技场的综合排名超过了 GPT-4o mini 变成了第一位。谷歌说这是一个实验版本还不算正式版本，所以只在 AI Studio 中提供。

但是从测试来看 Gemini 1.5 Pro 0801 的多模态能力非常强大，基本超过了 GPT-4o 和 Claude 3.5，而且它支持音频以及视频，我用一个一个多小时的播客文件试了一下，十几秒就总结好了。​

另外 Google 还发布了 Gemma 2 2B 这个可以在设备端运行的模型，这个模型在 LLM 竞技场上的得分也超过了一众比它大很多的 LLM。​

这是量化过的 Gemma 2 2B 再加上 MLX 之后在 iPhone 15pro 上的运行效果。

而且这个模型还内置了谷歌新发布的安全分类器 ShieldGemma，这个分类器可以有效检测仇恨言论、骚扰、性暗示内容以及危险内容。​

开源图像领域在 SD3 模型出现问题之后就有一蹶不振的趋势，新玩意和玩法越来越少，大家急需一个足够强大的图像模型来保证社区发展。​

刚好这个模型就来了，前 Stability AI 核心成员 Robin Rombach 创立了一个新的公司并且获得了 3200 万美元的融资。同时他们直接发布了一个系列的图像生成模型，其中两个还是开源的。​

从我自己的测试和这几天各种测试来看，这个模型在各种意义上真的接近了 Midjourney 的质量。​

他们发布的 FLUX 系列模型包括：

•
FLUX.1 [pro]: FLUX.1 的最佳版，提供最先进的性能图像生成，拥有一流的提示跟随、视觉品质、图像细节和输出多样性。​

•
FLUX.1 [dev]：FLUX.1 [dev]是用于非商业应用的一个开放权重的导向精馏模型。直接从 FLUX.1 [pro]精馏而来，FLUX.1 [dev]获得了类似的质量和提示词依从能力，同时比相同尺寸的标准模型更高效。可以非商业使用。​

•
FLUX.1 [schnell]：最快型号专为本地开发和个人使用而设计。FLUX.1 [schnell]在 Apache 2.0 许可下公开可用。同时已经获得了 ComfyUI 的支持，可以直接使用。​

而且他们正在训练类似 Sora 的 DiT 视频生成模型，可能也会开源，官网上放的视频可能是他们视频生成模型的样片。​

不过他们的负责人好像表示由于 Dev 和 Schnell 都是从 Pro 模型蒸馏来的所有两个模型的微调效果都不会很好，希望有大神可以解决这个问题。​

另外使用 Fp8 版本的 Dev 模型可以稳定在 4090 上本地运行，也有可以在 16G 或者 12G 显存上运行的方法，就是有点麻烦。​

你可以在这里快速体验 FLUX 系列模型：https://replicate.com/collections/flux

上周 Meta 在图像领域也继续发力，发布了 Meta Segment Anything Model 2 （SAM 2）图像分割模型。​

用于实时、可提示的图像和视频对象分割，实现了视频分割体验的飞跃，实现了图像和视频应用之间的无缝使用。SAM 2 在图像分割准确性方面超越了以前的能力，并且与现有作品相比，实现了更好的视频分割性能，同时需要三分之一的交互时间。​

AIGC Weekly #83​