市面上的 ElevenLabs 替代品不少,但做到这个程度的真不多。OmniVoice-Studio 是一个全功能本地语音工作室——语音克隆、语音设计、视频配音、有声书生成、听写、人声分离,全部在一个桌面 App 里。
7.5K Stars,AGPL-3.0 开源。不用任何 API Key、不上传任何数据到云端,纯本地运行。
是什么
OmniVoice-Studio 是一个跨平台桌面应用(macOS/Windows/Linux),整合了 TTS 和 ASR 两大能力。内置 11 个 TTS 引擎(OmniVoice、CosyVoice 3、GPT-SoVITS 等),9 个 ASR 引擎(WhisperX、Faster-Whisper、FunASR 等)。
架构是 React 前端 + FastAPI 后端 + SQLite,Tauri 封装。可以理解为把各种主流语音能力打包成了一个好用的图形工具。
核心功能
语音克隆
3 秒音频片段就能零样本克隆,支持 646 种语言。克隆质量取决于参考音频质量,好的参考几乎能完全还原。
语音设计
用参数调声音:性别、年龄、口音、音高、语速、情绪。不需要找参考音频就能生成一个虚拟的声音角色。
视频配音
输入 YouTube 链接或本地视频文件,自动识别语音→翻译→重新配音→导出 MP4。内置完整的配音流水线。
有声书编辑器
导入 EPUB/PDF/TXT,自动分章节,批量生成有声内容,导出 .m4b 格式。支持 loudnorm 标准化音量。
多角色故事创作
每行对白可以指定不同的语音角色,适合创作播客和有声故事。
听写挂件
全局快捷键 ⌘+⇧+Space,在任何应用中开启语音转文字,自动粘贴到当前输入框。实测速度很快。
人声分离
基于 Demucs 的分离引擎,可以去掉人声保留背景,或者提取人声。
批量处理队列
一次最多 50 个视频任务,每个任务有独立进度。适合批量处理大量内容。
MCP 服务器
内置 MCP Server,可以从 Claude、Cursor 等 MCP 客户端直接调用它的语音能力。
硬件需求
最低 8GB 内存 + 4GB 显存(会自动卸载到 CPU),推荐 16GB+ 内存 + 8GB 显存。CUDA、MPS、ROCm、CPU 推理都支持。
槽点
第一,功能太多,第一次打开会眼花缭乱。第二,模型下载需要联网且总量挺大(各引擎模型累加起来好几 GB)。第三,有些功能(如语音克隆)质量不如专门工具(GPT-SoVITS),但好在能用同一个界面调。第四,Tauri 桌面端稳定性在 Linux 上还有提升空间。
一句话
如果你想要一个「装一个就够」的语音工具箱,OmniVoice-Studio 是目前最好的选择。
GitHub:debpalash/OmniVoice-Studio
标签:#OmniVoice-Studio #ElevenLabs替代 #本地语音克隆 #语音设计 #视频配音 #有声书 #MCP #开源桌面App