分享
AIGC Weekly #72
输入“/”快速插入内容
AIGC Weekly #72
🔗 原文链接:
https://quail.ink/op7418/p/aigc-wee...
⏰ 发表时间:2024-05-19
上周精选 ✦
Open AI 的 GPT-4o 发布和 ChatGPT 演示
上周一 Open AI 的发布会虽然只有短短 25 分钟,但是直接把所有人都震撼了,能够把比 GPT-4 还强很多的真正的多模态模型的推理速度压缩到这个地步真是离谱。
Open AI 虽然产品能力不行,但是可以用模型的进步替代产品的优化和复杂迭代。
而且这次的产品和模型更新摆明了就是要收集更多的多模态信息,但是没办法我还是得用,同时再加上跟最大入口 Apple 的合作,数据问题现在应该已经不是问题了。
强烈推荐看一遍 GPT-4o 发布页的所有视频演示和文本演示。
Sam 自己写了
一条博客
来阐述他对 GPT-4o 的看法。他们的阶段性目标获得了更新:
“用最低的价格甚至是免费,将最好的模型提供给世界上所有人”
关于 GPT-4o 模型更新
•
它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。
•
它可以在 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。
•
在英文和代码文本方面,它与 GPT-4 Turbo 的性能相当,对非英语文本的文本有显著改进。
•
同时在 API 方面更快速、价格更便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面表现特别出色。
•
与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。
•
他们也承认之前在 LLM 竞技场上的 GPT2-Chatbot 模型就是 GPT-4o,LLM 竞技场中 GPT-4o 的评分比 GPT-4 0409 高了整整 50 分。
ChatGPT 产品层面的更新
•
新的 ChatGPT 更新,支持利用 GPT-4o 进行实时的语音和视频对话。
•
网页端和移动端全新的 UI 设计。
•
发布 Mac 版本的 ChatGPT 客户端,支持获取桌面内容进行对话,支持类似 Raycost 的快速拉起。
•
免费用户可以使用 GPT-4o,同时使用 GPT-4o 的时候可以免费使用原来 ChatGPT Plus 的发布分功能,目前只有文本模型,额度有限制 3 小时 10 条。
•
Sam 也确认了目前在 ChatGPT 中的 GPT-4o 只有文本模式,其他的多模态声音、图像、视频都没有实装。
除了上面在发布会发布的能力之外,Open AI 还发布了一部分
新的 ChatGPT 能力
:
•
直接从 Google Drive 和 Microsoft OneDrive 上传最新文件版本。
•
在新的可展开视图中与表格和图表进行交互。
•
定制并下载用于演示和文档的图表。
一些产品使用方法和技巧
orangeai 发布的破解 ChatGPT Mac 版本使用权限的方法:
https://x.com/oran_ge/status/1791825374143488160
使用 GPT-4o 快速从白板草图生成前端组件的案例:
https://x.com/op7418/status/1791279683910451305
使用 ChatGPT Mac 版本用一分钟生成一个 Mac 应用的案例:
https://x.com/op7418/status/1791697320079430134
Google I/O 发布会的内容
Google 紧随 Open AI 开了今年的 I/O 发布会,一个字概括就是全。模型层面所有的指标都在卷,同时也发布了所有现在主流的模型类型。产品层面所有的产品内容全部都接入了 AI 能力,包括命根子搜索也做了大刀阔斧的 AI 改革。
模型侧的更新内容
•
Gmini 1.5 Pro 宣布开始支持 200 万上下文,跨关键用例的一系列质量改进,例如翻译、编码、推理等”,但没有发布测试结果。
•
Gemini Flash:这款更小的 Gemini 模型针对较窄或高频任务进行了优化,其中模型响应时间的速度最为重要。提到百万 Token 的价格比 GPT-3.5 要便宜。
•
Gemini 模型家族的构成:
a.
Ultra:“最大的模型”(仅在 Gemini Advanced 提供)
b.
Pro:“最佳总体性能模型”(在 API 预览版中提供)