Stuart：一夜爆火的 ChatTTS 实测

用户4389

用户4392

用户8537

2025年8月1日修改

🎼

作者：许键Stuart

ChatTTS 一夜爆火， 极速出圈， 3 天就斩获 9k 的 Star 量， 截止 2024.06.03， 已经 16.6k 的 star， 极速接近 GPT-soVITs 当天的 26.2k 的 star 数。 到底有什么魔力让它火爆的速度直追它的前辈？​

🤖

优势：

•
真实度和自然度很惊艳​

•
更好的韵律: 能生成接近真人音色的语气语调​

•
这个TTS应该是目前对中文支持最好的了 ​

•
中英混合也没问题​

•
细粒度控制: 能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等​

•
自然流畅的语音合成，同时支持多说话人​

•
同时提供预训练模型​

50%

🤖

劣势：

•
当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。​

•
对于阿拉伯数字，标点符号，refine后效果不太好​

•
有时候会出现不稳定，自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况​

•
读绕口令也有人的那种卡顿（效果不稳定）​

50%

相关介绍

•

ChatTTS：专门为对话场景设计的文本到语音TTS模型，支持中英文 https://xiaohu.ai/p/8702

•

利用 Whisper + DeepSeek + ChatTTS 构建语音对话机器人 https://mp.weixin.qq.com/s/7bCUAk-Q1LDmX70iy5Tt8w

•

这两个牛逼哄哄的 AI 项目开源了！https://mp.weixin.qq.com/s/8ltuF1XnauOxGRVT3xZwGQ

•

这个叫chattts的开源，合成的声音太逼真了，我差点被骗！https://mp.weixin.qq.com/s/JAhm5KTxZ5k-SiqHTxFz-g

•

源码分析：https://mp.weixin.qq.com/s/ol2TTDLBnhHZ3bykk4DaAg

ChatTTS的TTS模型「TTS全称：Text To Speech（也就是文本转语音模型）​

该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。作者还留着一个10w小时训练数据的版本​

效果试用

先听一段效果，震惊

我在西单偶遇AJ，她竟然....

来自本地部署模型的推理和语音效果：

1.
语音效果： ​
a.
效果确实很不错， 接近真人语音语调。 但是和 GPT-SoVITS 比起来并没有更惊艳， 不过对比起来它用的更接近日常普通人的音色， 可能会给人感觉更接近真实。  对比参考： ​Stuart：免费 AI 真人语音入门： GPT-SoVITS + Bert-VITS2 ​

2.
运算速度： ​
a.
基于 L4 GPU 本地部署， 22s 的音频需要 12s 的推理时间。 如果用 4090， 速度差不多是 L4 的 2 倍， 也就是差不多需要 6s 左右。 当然这个模型还没有做优化， 如果做了优化， 有希望在 4090 上只用 2～3s 推理时间。​

3.
功能试玩： 提供的功能很简单​
a.
音色更换​
▪
效果对比​
•
Audio seed: 2; Text seed: 42; input text: 每个孩子是生下来就自带大模型的，他们天然有超强的数据处理能力。家庭教育是让孩子的大模型“本地化”。我们对孩子的教育，就是一种大模型的微调，最多起到 10%的作用。我们要做的是顺势而为，让孩子的先天大模型发挥最好的作用。​
◦
被 refine 后的文本变成了： ​

Stuart：一夜爆火的 ChatTTS 实测​

Stuart：一夜爆火的 ChatTTS 实测