AIGC Weekly #67

2024年9月10日创建

🔗 原文链接： https://quail.ink/op7418/p/aigc-wee...

作者：歸藏

common.docs_name - LarkCCM_Docs_Menu_Image

Midjourney提示词：Closeup of light reflecting on polished surfaces, creating beautiful shadows and highlights, in the style of kodak film photography. --ar 16:9 💎查看更多风格和提示词

上周精选 ✦

谷歌发布了一堆AI能力和升级

Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。​

首先是 Gemini Pro 1.5 进行了一大波升级，并且所有人都可以使用了。详细更新内容有：​

•
Gemini现在可以理解音频内容：Gemini 不仅能理解多达9.5小时的音频内容，还能感知你话语中的语调和情感。甚至可以听到背景音。​

•
能处理无限量的文件:现在几乎可以上传无限数量的文件（包括图片、视频帧和音频）让Gemini处理。​

•
函数调用和系统指令的进一步改进：可以选择模式来限制模型的输出，提高可靠性。选择文本、函数调用或仅函数本身。​

•
推出了JSON模式：指示模型仅输出 JSON 对象。此模式可从文本或图像中提取结构化数据。​

•
具有改进性能的新嵌入模型：新模型 text-embedding-004在 MTEB 基准测试中实现了更强的检索性能，并超越了具有相似维度的现有模型。​

详细的更新公告在这里：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

Google的 Imagen 2 图像生成模型现在已经可以通过文本生成4秒的视频。​

介绍，没找到在哪用：https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-gemini-image-2-and-mlops-updates

还开源了一个基于 Gemma 的系列模型 CodeGemma。CodeGemma 7B模型在数学推理方面的能力出众，代码生成能力很强。经过指令调优的CodeGemma 7B模型，在Python编程方面表现更为强大。​

技术报告地址：https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

AI音乐生成工具Udio发布

音乐生成应用Udio正式发布比Suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费，不只是单纯的当工具在做。​

前谷歌DeepMind的顶尖AI研究员和工程师创立，得到了a16z的投资，每人每月可以免费生成1200首音乐。​

属实离谱，Udio除了可以生成音乐和歌曲之外还可以通过自定义歌词生成其他音频。​

比如喜剧、演讲、NPC 对话、商业广告、广播节目、ASMR等。

演示视频：https://x.com/mckaywrigley/status/1778867824217542766

AIGC Weekly #67​

AIGC Weekly #67