AIGC Weekly #82

🔗 原文链接： https://quail.ink/op7418/p/aigc-wee...

⏰ 发布时间：2024-07-28

作者：歸藏

上周精选 ✦

Meta 上周如约正式发布了 Llama3.1 版本模型，与泄露的内容一致包含8B、70B、405B 三个型号。​

提供了更好的推理能力、更大的 128K token 上下文窗口，并改进了对8种语言的支持等其他改进。​

405B 可以在多项任务上可以与领先的闭源模型竞争。还更新了许可证，允许开发者用 Llama 模型的输出，包括 405B 来改进其他模型。​

405B对Meta确实很重要，以至于小扎还发布了一个对应的声明来介绍Meta的开源优势。​

他认为开源人工智能（如 Llama 3.1）是未来发展的正确道路，它能够促进 AI 技术的更广泛的应用和创新，同时也有助于 Meta 保持技术领先地位和商业模式的可持续性。​

Llama 3.1 405B 的第三方评估结果也都出来了：

SEAL 和 Allen AI 的 ZeroEval 两个独立评估机构给出了自己的结果，405B 确实。​

SEAL 上405B指令遵循第一、代码第四、数学第二。ZeroEval 测试它整体性能介于 Sonnet 3.5 和 GPT4o 之间。​

同时从技术报告论文来看，Llama 使用了非常多的合成数据来帮助训练模型：

•
代码的监督微调 (SFT for Code) ：405B 模型采用了 3 种合成数据方法来提升自身的代码能力，包括代码执行反馈、编程语言翻译和文档反向翻译。​

•
数学的监督微调 (SFT for Math) ：使用了多种方法包括从数学背景中获取相关的预训练数据，并将其转换为问答格式，以用于监督微调；使用Llama 3来生成一组提示的逐步解决方案；训练结果和逐步奖励模型，以过滤其中间推理步骤错误的训练数据；提示Llama 3通过结合文本推理和相关的Python代码来解决推理问题；为了模拟人类反馈，我们利用不正确的生成进行训练，并进一步通过提示Llama 3来消除这些错误。​

•
多语言能力的监督微调 (SFT for Multilinguality) ："为了收集更高质量的非英语语言人工标注，我们从预训练过程中分出一个分支，继续在由 90% 多语言标记 (tokens) 组成的数据混合集上进行预训练，以此来培养一个多语言专家模型。"​

•
长文本处理能力的监督微调 (SFT for Long Context) ：主要依靠合成数据来解决超长上下文训练的需求。长上下文预训练使用了8000亿（B）个Token，分为6个阶段，并有一个退火阶段。**使用早期版本的 Llama 3 来生成基于关键长文本处理场景的合成数据，包括多轮问答、长文档摘要和代码库推理。"​

•
工具使用能力的监督微调 (SFT for Tool Use) ：针对 Brave Search、Wolfram Alpha 和 Python 解释器（一个特殊的新 ipython 角色）进行了训练，以实现单一、嵌套、并行和多轮函数调用的能力。​

•
基于人类反馈的强化学习 (RLHF) ：大量使用了基于 Llama 2 生成结果的直接偏好优化 (DPO) 数据。​

common.docs_name - LarkCCM_Docs_Menu_Image

Open AI 推出 AI 搜索 SearchGPT

泄露了三四个月的 Open AI AI 搜索 SearchGPT 终于发布了，他们说这个功能的目标是，通过结合 AI 模型的对话能力和实时网络信息，让用户更快地找到所需答案。​

目前从演示以及一些获得资格的用户测试来看，相较于其他 AI 搜索 SearchGPT 为不同的数据展示形式做了非常多的工作。

比如搜索到的 youtube 视频可以在搜索结果直接播放，天气搜索结果会展示带图标的天气列表，数据类的结果会直接匹配适合的图表展示。​

虽然 Open AI 的产品能力确实堪忧，但这次又给 AI 搜索展示了下一步的发展方向，就是获取到的信息打撒重新按照用户方便阅读的方式组合，尤其是除了文字之外的更多模态内容，实现图文、视频、数据混排。​

Deepmind 数学模型获得国际数学奥林匹克竞赛银牌

AIGC Weekly #82 ​

AIGC Weekly #82