语音克隆圈子有个共识:想效果好,至少得几分钟干净音频做训练素材。GPT-SoVITS 打破了这个规则——1 分钟就够了,甚至 30 秒也能出活。
59K GitHub Stars,是目前最火的开源语音合成项目之一。支持零样本(5 秒音频直接克隆)和少样本(1 分钟微调)。中英文、日语、韩语、粤语都支持。
是什么
GPT-SoVITS 是一个少样本语音合成+转换系统。名字已经说明了技术路线:GPT 负责文本理解和韵律预测,SoVITS 负责音色转换。两部分配合,用很少的数据就能生成自然度很高的语音。
核心优势
1 分钟训练出效果
这是它最突出的卖点。传统 TTS 需要几小时甚至几十小时的录音。GPT-SoVITS 只需要 1 分钟的目标语音。实测 30 秒也能跑,不过质量会明显下降。官方推荐 1 分钟作为实用门槛。
零样本推理
5 秒参考音频 + 参考文本,直接合成目标文字。不用训练,适合快速试听。当然效果不如微调版本好,但胜在快。
跨语言合成
中文语音读英文、英文语音读中文,GPT-SoVITS 都能做到。虽然腔调会保留原说话人的口音,但可懂度完全没问题。对做中英双语内容的人来说很实用。
WebUI 易用
自带 Gradio Web 界面,不用写代码。安装也方便,支持 Docker 一键启动、Windows 整合包、macOS 和 Linux。对非技术用户友好,下载解压就能跑。
几个问题
第一,模型体积不小。v2 版本模型文件加起来几个 GB,下载需要耐心。第二,GPU 是必须的,CPU 推理基本不可用。第三,质量上限受限于底模,同一个人如果参考音频质量差,合成结果也不会好。第四,WebUI 功能堆得比较满,新手进去会有点懵。
和同类比
GPT-SoVITS 在开源 TTS 领域几乎是统治级的存在。59K Stars,社区最活跃,扩展最丰富。如果你的需求是:少数据量、快速出活、多语言混用,GPT-SoVITS 是首选。
ChatTTS 更强在对话场景的自然度,F5-TTS 更强在音质,EmotiVoice 更强在情感控制。如果只能装一个,大多数人会选 GPT-SoVITS。
一句话
1 分钟音频就能训练一个说话人模型,开源 TTS 绕不过去的存在。
GitHub:RVC-Boss/GPT-SoVITS
标签:#GPT-SoVITS #语音克隆 #TTS #少样本合成 #开源语音 #跨语言TTS