分享
AIGC Weekly #83
输入“/”快速插入内容
AIGC Weekly #83
🔗 原文链接:
https://quail.ink/op7418/p/aigc-wee...
⏰ 发表时间:2024-08-04
作者:歸藏
上周精选 ✦
Google 发布 Gemma 2 2B 和 Gemini 1.5 Pro
Google 上周也开始发力了,先后发布了 Gemini 1.5 Pro 和 Gemma 2 2B 模型。
其中 Gemini 1.5 Pro 0801 在 LLM 竞技场的综合排名超过了 GPT-4o mini 变成了第一位。谷歌说这是一个实验版本还不算正式版本,所以只
在 AI Studio 中提供
。
但是从测试来看 Gemini 1.5 Pro 0801 的多模态能力非常强大,基本超过了 GPT-4o 和 Claude 3.5,而且它支持音频以及视频,我用一个一个多小时的播客文件试了一下,十几秒就总结好了。
另外 Google 还发布了 Gemma 2 2B 这个可以在设备端运行的模型,这个模型在 LLM 竞技场上的得分也超过了一众比它大很多的 LLM。
这是量化过的 Gemma 2 2B 再加上 MLX 之后
在 iPhone 15pro 上的运行效果
。
而且这个模型还内置了谷歌新发布的安全分类器 ShieldGemma,这个分类器可以有效检测仇恨言论、骚扰、性暗示内容以及危险内容。
FLUX 开源图像的新标杆
开源图像领域在 SD3 模型出现问题之后就有一蹶不振的趋势,新玩意和玩法越来越少,大家急需一个足够强大的图像模型来保证社区发展。
刚好这个模型就来了,前 Stability AI 核心成员 Robin Rombach 创立了一个新的公司并且获得了 3200 万美元的融资。同时他们直接发布了一个系列的图像生成模型,其中两个还是开源的。
从我自己的测试和这几天各种测试来看,这个模型在各种意义上真的接近了 Midjourney 的质量。
他们发布的 FLUX 系列模型包括:
•
FLUX.1 [pro]: FLUX.1 的最佳版,提供最先进的性能图像生成,拥有一流的提示跟随、视觉品质、图像细节和输出多样性。
•
FLUX.1 [dev]:FLUX.1 [dev]是用于非商业应用的一个开放权重的导向精馏模型。直接从 FLUX.1 [pro]精馏而来,FLUX.1 [dev]获得了类似的质量和提示词依从能力,同时比相同尺寸的标准模型更高效。可以非商业使用。
•
FLUX.1 [schnell]:最快型号专为本地开发和个人使用而设计。FLUX.1 [schnell]在 Apache 2.0 许可下公开可用。同时已经获得了 ComfyUI 的支持,可以直接使用。
而且他们正在训练类似 Sora 的 DiT 视频生成模型,可能也会开源,官网上放的视频可能是他们视频生成模型的样片。
不过他们的负责人好像表示由于 Dev 和 Schnell 都是从 Pro 模型蒸馏来的所有两个模型的微调效果都不会很好,希望有大神可以解决这个问题。
另外使用 Fp8 版本的 Dev 模型可以稳定在 4090 上本地运行,也有可以在 16G 或者 12G 显存上运行的方法,就是有点麻烦。
你可以在这里快速体验 FLUX 系列模型:
https://replicate.com/collections/flux
这里下载模型:
https://huggingface.co/black-forest-labs
这里是 ComfyUI 的工作流:
https://comfyanonymous.github.io/ComfyUI_examples/flux/
Meta 发布 SAM 2 分割模型
上周 Meta 在图像领域也继续发力,发布了 Meta Segment Anything Model 2 (SAM 2)图像分割模型。
用于实时、可提示的图像和视频对象分割,实现了视频分割体验的飞跃,实现了图像和视频应用之间的无缝使用。SAM 2 在图像分割准确性方面超越了以前的能力,并且与现有作品相比,实现了更好的视频分割性能,同时需要三分之一的交互时间。