首页 ChatTTS:39.5K Star的开源语音模型,最像真人说话的声音

ChatTTS:39.5K Star的开源语音模型,最像真人说话的声音

📅 2026/6/25 👁 阅读 4 🔗 工具访问 0 次

在语音合成领域,绝大多数模型听起来都像在「念稿子」——字正腔圆但缺了人味。ChatTTS 是第一个让我觉得「这真的是 AI 在说话吗」的开源模型。

39.5K Stars,一个专为日常对话设计的语音生成模型。它不是做播报、不是做旁白,而是做「听起来像真人聊天」的那种语音。

是什么

ChatTTS 是 2noise 团队开源的对话式语音生成模型。和传统 TTS 最大不同:它理解对话的节奏、语气、停顿。同一句话用不同 prompt 可以生成开心、疑惑、小声、犹豫等不同语气效果。

v0.2.5 最新版,支持中英文混合、对话多轮控制、语气标签。

核心亮点

自然度遥遥领先

这是 ChatTTS 最无法忽视的优点。它生成的语音有呼吸感、有犹豫、有语气起伏。不像传统 TTS 每条音频都是同一个「播音员模式」。在对话场景下,这个自然度几乎能骗过大多数人。

语气标签控制

用 [laugh]、[sigh]、[whisper] 这类标签控制生成语气。不用复杂参数,在文本里加标签就行。这在需要角色语气的场景特别有用。

多轮对话支持

可以生成完整的多轮对话。A 说话 B 回答,两个人音色不同,语气不同。对播客、有声小说、对话教学这类场景来说,这是刚需功能。

短板

第一,模型对长文本支持不够好。超过 30 秒的句子,尾部效果会衰减。第二,中文支持不如英文自然。第三,没有 WebUI(目前主要是 Python 调用),对非技术用户不太友好。第四,情感控制不如 EmotiVoice 精细。

怎么选

想要「听起来最像人说话的语音」→ ChatTTS。想要音质天花板 → F5-TTS。想要功能全面、少样本训练 → GPT-SoVITS。ChatTTS 在自然度这个维度上,目前没有开源对手。

GitHub:2noise/ChatTTS

标签:#ChatTTS #对话语音合成 #自然语音 #开源TTS #语气控制 #语音生成

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

微信扫码分享

打开微信扫一扫