GPT-SoVITS：1分钟克隆你的声音，59K Star的开源语音合成王者

语音克隆圈子有个共识：想效果好，至少得几分钟干净音频做训练素材。GPT-SoVITS 打破了这个规则——1 分钟就够了，甚至 30 秒也能出活。

59K GitHub Stars，是目前最火的开源语音合成项目之一。支持零样本（5 秒音频直接克隆）和少样本（1 分钟微调）。中英文、日语、韩语、粤语都支持。

是什么

GPT-SoVITS 是一个少样本语音合成+转换系统。名字已经说明了技术路线：GPT 负责文本理解和韵律预测，SoVITS 负责音色转换。两部分配合，用很少的数据就能生成自然度很高的语音。

这是它最突出的卖点。传统 TTS 需要几小时甚至几十小时的录音。GPT-SoVITS 只需要 1 分钟的目标语音。实测 30 秒也能跑，不过质量会明显下降。官方推荐 1 分钟作为实用门槛。

5 秒参考音频 + 参考文本，直接合成目标文字。不用训练，适合快速试听。当然效果不如微调版本好，但胜在快。

中文语音读英文、英文语音读中文，GPT-SoVITS 都能做到。虽然腔调会保留原说话人的口音，但可懂度完全没问题。对做中英双语内容的人来说很实用。

自带 Gradio Web 界面，不用写代码。安装也方便，支持 Docker 一键启动、Windows 整合包、macOS 和 Linux。对非技术用户友好，下载解压就能跑。

第一，模型体积不小。v2 版本模型文件加起来几个 GB，下载需要耐心。第二，GPU 是必须的，CPU 推理基本不可用。第三，质量上限受限于底模，同一个人如果参考音频质量差，合成结果也不会好。第四，WebUI 功能堆得比较满，新手进去会有点懵。

GPT-SoVITS 在开源 TTS 领域几乎是统治级的存在。59K Stars，社区最活跃，扩展最丰富。如果你的需求是：少数据量、快速出活、多语言混用，GPT-SoVITS 是首选。

ChatTTS 更强在对话场景的自然度，F5-TTS 更强在音质，EmotiVoice 更强在情感控制。如果只能装一个，大多数人会选 GPT-SoVITS。

1 分钟音频就能训练一个说话人模型，开源 TTS 绕不过去的存在。

标签：#GPT-SoVITS #语音克隆 #TTS #少样本合成 #开源语音 #跨语言TTS