AIGC Weekly #89

用户4392

2024年9月23日修改

🔗 原文链接： https://quail.ink/op7418/p/aigc-wee...

⏰发布时间：2024-09-23

上周精选 ✦

Open AI 发布 o1 推理模型

这两周最大的新闻就是 OpenAI o1 模型了，不过热度下降很快，模型能力和普通人的需求脱节了，大部分人没有用这类的模型的需求，也没办法提出好问题来测试。​

Sam 自己也说目前的 o1 所处的位置可能类似 GPT-2 的时期，只是开了个好头，证明了这条路是可以走通的。​

o1 通过复杂的任务推理，解决比以前的科学、编码和数学模型更难的问题。模型在物理、化学和生物学方面表现与博士生类似。一共两个模型 OpenAI o1-mini 和 o1-preview。​

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只正确解决了 13% 的问题，而推理模型的得分为 83%。他们的编码能力在 Codeforces 竞赛中达到了第 89 个百分点。​

就是做个记录，就不复读公告和技术报告内容了，这两周都被发烂了，估计都看过了。​

common.docs_name - LarkCCM_Docs_Menu_Image

阿里开源 Qwen2.5 系列一堆模型

为了云栖大会发货准备的弹药非常充足，Qwen 2.5 把主要类型模型和大小全部都覆盖到了。​

Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;​
Qwen2.5-Coder: 1.5B, 7B, 即将推出的32B;​
Qwen2.5-Math: 1.5B, 7B, 以及72B；​
Qwen-Plus，Qwen-Turbo，Qwen-VL-Max 的 API。​

主要升级内容：

Qwen2.5 获得了显著更多的知识，在编程能力和数学能力有大幅提升。​

在指令执行、生成长文本、理解结构化数据以及生成结构化输出方面有显著改进。​

对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。​

Qwen2.5-Coder 使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。​

Qwen2.5-Math 支持 中文 和 英文，并整合了多种推理方法，包括CoT、PoT和 TIR。​

Moshi：可以进行实时语音对话的文本语音模型

Kyutai 开源 Moshi，一个可以进行实时语音对话的文本语音模型。期待类似的开源中文实时语音模型。而且发了技术报告，里面有一些实现细节。

•
采用多流架构，能够同时处理用户和系统的语音输入，并生成相应的语音输出。​

•
的理论延迟为160ms，实际为200ms，远低于自然对话中的几秒钟延迟。​

•
能够同时处理语音和文本信息，支持复杂的对话动态，包括同时说话和打断。​

•
支持实时流式推理，能够在生成语音的同时进行语音识别和文本到语音的转换。​

AIGC Weekly #89​

AIGC Weekly #89