AIGC Weekly #54

🔗 原文链接： https://quail.ink/op7418/p/aigc-wee...

发表时间：08 Jan, 2024

common.docs_name - LarkCCM_Docs_Menu_Image

Midjourney提示词：Flat background gradient, ,minimalist holographic background, smooth forms, shapeless, glass --ar 16:9 --v 6.0 --style raw --s 0 💎查看更多风格和提示词

上周精选❤️

OpenVoice：多功能实时语音克隆

My shell 的这个语音克隆技术上周爆了，只需要一小段说话内容就可以复制对应的声音并生成多种语言的声音。​

除了复制参考说话者的音色之外，OpenVoice 还可以对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调。​

OpenVoice 的计算效率也很高，其成本比性能较差的商用 API 低数十倍。​

论文：https://arxiv.org/pdf/2312.01479.pdf

Github：https://github.com/myshell-ai/OpenVoice

Mobile ALOHA：斯坦福家政机械臂

上周斯坦福这个家政机器人的表现确实很亮眼，做菜干家务都做得很好，每个任务人工操作几十次机器人的学习成功率就可以打到 90%，感觉我们养老有希望能用上。整个机器人的成本大概 22 万人民币。​

我们开发了一种用于模仿双手且需要全身控制的移动操纵任务的系统。我们首先推出 Mobile ALOHA，这是一种用于数据收集的低成本全身远程操作系统。它通过移动底座和全身遥控操作界面增强了 ALOHA 系统。​

然后，我们使用 Mobile ALOHA 收集的数据执行监督行为克隆，并发现与现有静态 ALOHA 数据集的联合训练可以提高移动操作任务的性能。​

每项任务进行 50 次演示，协同训练可将成功率提高高达 90%，让 Mobile ALOHA 能够自主完成复杂的移动操作任务，例如炒和上一块虾、打开两门壁柜存放重物等烹饪锅具、呼叫并进入电梯以及使用厨房水龙头轻轻冲洗用过的锅。​

同时谷歌也宣布了自己用 LLM 来指导机器人做家务的项目AutoRT：https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/

AutoRT 结合大型基础模型（例如大型语言模型 (LLM) 或视觉语言模型 (VLM)）和机器人控制模型（RT-1 或 RT-2）来创建可以部署机器人的系统在新环境中收集训练数据。 AutoRT 可以同时指挥多个机器人，每个机器人都配备了摄像机和末端执行器，以在一系列设置中执行不同的任务。​

AIGC Weekly #54 ​

AIGC Weekly #54