ChatTTS：39.5K Star的开源语音模型，最像真人说话的声音

在语音合成领域，绝大多数模型听起来都像在「念稿子」——字正腔圆但缺了人味。ChatTTS 是第一个让我觉得「这真的是 AI 在说话吗」的开源模型。

39.5K Stars，一个专为日常对话设计的语音生成模型。它不是做播报、不是做旁白，而是做「听起来像真人聊天」的那种语音。

是什么

ChatTTS 是 2noise 团队开源的对话式语音生成模型。和传统 TTS 最大不同：它理解对话的节奏、语气、停顿。同一句话用不同 prompt 可以生成开心、疑惑、小声、犹豫等不同语气效果。

v0.2.5 最新版，支持中英文混合、对话多轮控制、语气标签。

这是 ChatTTS 最无法忽视的优点。它生成的语音有呼吸感、有犹豫、有语气起伏。不像传统 TTS 每条音频都是同一个「播音员模式」。在对话场景下，这个自然度几乎能骗过大多数人。

用 [laugh]、[sigh]、[whisper] 这类标签控制生成语气。不用复杂参数，在文本里加标签就行。这在需要角色语气的场景特别有用。

可以生成完整的多轮对话。A 说话 B 回答，两个人音色不同，语气不同。对播客、有声小说、对话教学这类场景来说，这是刚需功能。

第一，模型对长文本支持不够好。超过 30 秒的句子，尾部效果会衰减。第二，中文支持不如英文自然。第三，没有 WebUI（目前主要是 Python 调用），对非技术用户不太友好。第四，情感控制不如 EmotiVoice 精细。

想要「听起来最像人说话的语音」→ ChatTTS。想要音质天花板 → F5-TTS。想要功能全面、少样本训练 → GPT-SoVITS。ChatTTS 在自然度这个维度上，目前没有开源对手。

标签：#ChatTTS #对话语音合成 #自然语音 #开源TTS #语气控制 #语音生成