在语音合成领域,绝大多数模型听起来都像在「念稿子」——字正腔圆但缺了人味。ChatTTS 是第一个让我觉得「这真的是 AI 在说话吗」的开源模型。
39.5K Stars,一个专为日常对话设计的语音生成模型。它不是做播报、不是做旁白,而是做「听起来像真人聊天」的那种语音。
是什么
ChatTTS 是 2noise 团队开源的对话式语音生成模型。和传统 TTS 最大不同:它理解对话的节奏、语气、停顿。同一句话用不同 prompt 可以生成开心、疑惑、小声、犹豫等不同语气效果。
v0.2.5 最新版,支持中英文混合、对话多轮控制、语气标签。
核心亮点
自然度遥遥领先
这是 ChatTTS 最无法忽视的优点。它生成的语音有呼吸感、有犹豫、有语气起伏。不像传统 TTS 每条音频都是同一个「播音员模式」。在对话场景下,这个自然度几乎能骗过大多数人。
语气标签控制
用 [laugh]、[sigh]、[whisper] 这类标签控制生成语气。不用复杂参数,在文本里加标签就行。这在需要角色语气的场景特别有用。
多轮对话支持
可以生成完整的多轮对话。A 说话 B 回答,两个人音色不同,语气不同。对播客、有声小说、对话教学这类场景来说,这是刚需功能。
短板
第一,模型对长文本支持不够好。超过 30 秒的句子,尾部效果会衰减。第二,中文支持不如英文自然。第三,没有 WebUI(目前主要是 Python 调用),对非技术用户不太友好。第四,情感控制不如 EmotiVoice 精细。
怎么选
想要「听起来最像人说话的语音」→ ChatTTS。想要音质天花板 → F5-TTS。想要功能全面、少样本训练 → GPT-SoVITS。ChatTTS 在自然度这个维度上,目前没有开源对手。
GitHub:2noise/ChatTTS
标签:#ChatTTS #对话语音合成 #自然语音 #开源TTS #语气控制 #语音生成