AIGC Weekly #72

⏰ 发表时间：2024-05-19

上周精选 ✦

上周一 Open AI 的发布会虽然只有短短 25 分钟，但是直接把所有人都震撼了，能够把比 GPT-4 还强很多的真正的多模态模型的推理速度压缩到这个地步真是离谱。​

Open AI 虽然产品能力不行，但是可以用模型的进步替代产品的优化和复杂迭代。​

而且这次的产品和模型更新摆明了就是要收集更多的多模态信息，但是没办法我还是得用，同时再加上跟最大入口 Apple 的合作，数据问题现在应该已经不是问题了。​

强烈推荐看一遍 GPT-4o 发布页的所有视频演示和文本演示。

Sam 自己写了一条博客来阐述他对 GPT-4o 的看法。他们的阶段性目标获得了更新：

“用最低的价格甚至是免费，将最好的模型提供给世界上所有人”​

•
它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。​

•
它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。​

•
在英文和代码文本方面，它与 GPT-4 Turbo 的性能相当，对非英语文本的文本有显著改进。​

•
同时在 API 方面更快速、价格更便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。​

•
与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。​

•
他们也承认之前在 LLM 竞技场上的 GPT2-Chatbot 模型就是 GPT-4o，LLM 竞技场中 GPT-4o 的评分比 GPT-4 0409 高了整整 50 分。​

•
新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。​

•
网页端和移动端全新的 UI 设计。​

•
发布 Mac 版本的 ChatGPT 客户端，支持获取桌面内容进行对话，支持类似 Raycost 的快速拉起。​

•
免费用户可以使用 GPT-4o，同时使用 GPT-4o 的时候可以免费使用原来 ChatGPT Plus 的发布分功能，目前只有文本模型，额度有限制 3 小时 10 条。​

•
Sam 也确认了目前在 ChatGPT 中的 GPT-4o 只有文本模式，其他的多模态声音、图像、视频都没有实装。​

除了上面在发布会发布的能力之外，Open AI 还发布了一部分新的 ChatGPT 能力：

•
直接从 Google Drive 和 Microsoft OneDrive 上传最新文件版本。​

•
在新的可展开视图中与表格和图表进行交互。​

•
定制并下载用于演示和文档的图表。​

一些产品使用方法和技巧

orangeai 发布的破解 ChatGPT Mac 版本使用权限的方法：https://x.com/oran_ge/status/1791825374143488160

使用 GPT-4o 快速从白板草图生成前端组件的案例：https://x.com/op7418/status/1791279683910451305

使用 ChatGPT Mac 版本用一分钟生成一个 Mac 应用的案例：https://x.com/op7418/status/1791697320079430134

Google I/O 发布会的内容

Google 紧随 Open AI 开了今年的 I/O 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。产品层面所有的产品内容全部都接入了 AI 能力，包括命根子搜索也做了大刀阔斧的 AI 改革。​

•
Gmini 1.5 Pro 宣布开始支持 200 万上下文，跨关键用例的一系列质量改进，例如翻译、编码、推理等”，但没有发布测试结果。​

•
Gemini Flash：这款更小的 Gemini 模型针对较窄或高频任务进行了优化，其中模型响应时间的速度最为重要。提到百万 Token 的价格比 GPT-3.5 要便宜。​

•
Gemini 模型家族的构成：​
a.
Ultra：“最大的模型”（仅在 Gemini Advanced 提供）​
b.
Pro：“最佳总体性能模型”（在 API 预览版中提供）​

AIGC Weekly #72​