国内大厂开源的语音项目不多,网易的 EmotiVoice 是其中一个。8.5K Stars,主打情感可控语音合成——你想让语音听起来开心、悲伤、生气、兴奋,加个 prompt 就行了。
相比之下 GPT-SoVITS 强调少样本克隆,ChatTTS 强调自然度,EmotiVoice 的核心差异在「情感控制」这个维度。
是什么
EmotiVoice 是网易有道开源的多语音情感控制 TTS 引擎。2000+ 种音色,中英文双语,Apache-2.0 协议。用 `||` 这个格式来控制说什么、用谁的声音、用什么情绪。
核心功能
2000+ 音色库
内置了丰富的声音角色库,不是只能合成一种声音。选不同的 speaker ID 就能切换不同音色。这对内容创作来说,相当于内置了一个配音团队。
情感 prompt 控制
这是它最大的差异化。用自然语言描述情感和风格,比如 "speak happily"、"said sadly with a trembling voice"。EmotiVoice 会尝试在语音中体现这些情感标签。虽然精细度还不够完美,但已经是开源 TTS 里情感控制做得最好的了。
中英文双语
同时优化了中文和英文的发音质量。不像很多模型英文好中文差、或者反过来。EmotiVoice 的双语能力很平均。
Docker 一键启动
一条命令就能跑起来:docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest。带 Streamlit Web 界面,对新手友好。
槽点
第一,安装依赖比较重。conda + pip + 模型下载,整套跑下来要花些时间。第二,2000+ 音色听起来很多,但质量参差不齐,好用的其实没那么多。第三,情感控制目前还不够稳定,同一段文本不同时间跑可能结果不同。第四,相比 GPT-SoVITS 的社区活跃度,EmotiVoice 更像一个大厂的实验性开源项目,更新节奏慢一些。
一句话
如果要给语音加上情绪,EmotiVoice 是目前开源里做得最好的。
GitHub:netease-youdao/EmotiVoice
标签:#EmotiVoice #网易 #情感TTS #多音色合成 #开源语音 #PromptTTS