分享
Stuart:一夜爆火的 ChatTTS 实测
输入“/”快速插入内容
Stuart:一夜爆火的 ChatTTS 实测
用户4389
用户4389
用户4392
用户4392
用户8537
用户8537
2025年8月1日修改
🎼
作者:
许键
Stuart
ChatTTS 一夜爆火, 极速出圈, 3 天就斩获 9k 的 Star 量, 截止 2024.06.03, 已经 16.6k 的 star, 极速接近 GPT-soVITs 当天的 26.2k 的 star 数。 到底有什么魔力让它火爆的速度直追它的前辈?
🤖
优势
:
•
真实度和自然度很惊艳
•
更好的韵律: 能生成接近真人音色的语气语调
•
这个TTS应该是目前对中文支持最好的了
•
中英混合也没问题
•
细粒度控制: 能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等
•
自然流畅的语音合成,同时支持多说话人
•
同时提供预训练模型
50%
🤖
劣势:
•
当前推理速度慢,无法应用在实时语音场景。用在离线场景,需要大量的后期修正工作。
•
对于阿拉伯数字,标点符号,refine后效果不太好
•
有时候会出现不稳定,自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”,会莫名把句子改写一下变成了,“好吃,你吃饭了没”这种情况
•
读绕口令也有人的那种卡顿(效果不稳定)
50%
相关介绍
•
ChatTTS:专门为对话场景设计的文本到语音TTS模型,支持中英文
https://xiaohu.ai/p/8702
•
利用 Whisper + DeepSeek + ChatTTS 构建语音对话机器人
https://mp.weixin.qq.com/s/7bCUAk-Q1LDmX70iy5Tt8w
•
这两个牛逼哄哄的 AI 项目开源了!
https://mp.weixin.qq.com/s/8ltuF1XnauOxGRVT3xZwGQ
•
这个叫chattts的开源,合成的声音太逼真了,我差点被骗!
https://mp.weixin.qq.com/s/JAhm5KTxZ5k-SiqHTxFz-g
•
源码分析:
https://mp.weixin.qq.com/s/ol2TTDLBnhHZ3bykk4DaAg
ChatTTS
的TTS模型「TTS全称:
Text To Speech
(也就是
文本转语音模型
)
该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。作者还留着一个10w小时训练数据的版本
效果试用
先听一段效果,震惊
我在西单偶遇AJ,她竟然....
来自本地部署模型的推理和语音效果:
1.
语音效果:
a.
效果确实很不错, 接近真人语音语调。 但是和 GPT-SoVITS 比起来并没有更惊艳, 不过对比起来它用的更接近日常普通人的音色, 可能会给人感觉更接近真实。 对比参考:
Stuart:免费 AI 真人语音入门: GPT-SoVITS + Bert-VITS2
2.
运算速度:
a.
基于 L4 GPU 本地部署, 22s 的音频需要 12s 的推理时间。 如果用 4090, 速度差不多是 L4 的 2 倍, 也就是差不多需要 6s 左右。 当然这个模型还没有做优化, 如果做了优化, 有希望在 4090 上只用 2~3s 推理时间。
3.
功能试玩:
提供的功能很简单
a.
音色更换
▪
效果对比
•
Audio seed: 2; Text seed: 42; input text: 每个孩子是生下来就自带大模型的,他们天然有超强的数据处理能力。家庭教育是让孩子的大模型“本地化”。我们对孩子的教育,就是一种大模型的微调,最多起到 10%的作用。我们要做的是顺势而为,让孩子的先天大模型发挥最好的作用。
◦
被 refine 后的文本变成了: