OmniVoice-Studio：7.5K Star的开源语音工作室，本地运行的ElevenLabs替代

市面上的 ElevenLabs 替代品不少，但做到这个程度的真不多。OmniVoice-Studio 是一个全功能本地语音工作室——语音克隆、语音设计、视频配音、有声书生成、听写、人声分离，全部在一个桌面 App 里。

7.5K Stars，AGPL-3.0 开源。不用任何 API Key、不上传任何数据到云端，纯本地运行。

是什么

OmniVoice-Studio 是一个跨平台桌面应用（macOS/Windows/Linux），整合了 TTS 和 ASR 两大能力。内置 11 个 TTS 引擎（OmniVoice、CosyVoice 3、GPT-SoVITS 等），9 个 ASR 引擎（WhisperX、Faster-Whisper、FunASR 等）。

架构是 React 前端 + FastAPI 后端 + SQLite，Tauri 封装。可以理解为把各种主流语音能力打包成了一个好用的图形工具。

核心功能

语音克隆

3 秒音频片段就能零样本克隆，支持 646 种语言。克隆质量取决于参考音频质量，好的参考几乎能完全还原。

语音设计

用参数调声音：性别、年龄、口音、音高、语速、情绪。不需要找参考音频就能生成一个虚拟的声音角色。

视频配音

输入 YouTube 链接或本地视频文件，自动识别语音→翻译→重新配音→导出 MP4。内置完整的配音流水线。

有声书编辑器

导入 EPUB/PDF/TXT，自动分章节，批量生成有声内容，导出 .m4b 格式。支持 loudnorm 标准化音量。

多角色故事创作

每行对白可以指定不同的语音角色，适合创作播客和有声故事。

听写挂件

全局快捷键 ⌘+⇧+Space，在任何应用中开启语音转文字，自动粘贴到当前输入框。实测速度很快。

人声分离

基于 Demucs 的分离引擎，可以去掉人声保留背景，或者提取人声。

批量处理队列

一次最多 50 个视频任务，每个任务有独立进度。适合批量处理大量内容。

MCP 服务器

内置 MCP Server，可以从 Claude、Cursor 等 MCP 客户端直接调用它的语音能力。

硬件需求

最低 8GB 内存 + 4GB 显存（会自动卸载到 CPU），推荐 16GB+ 内存 + 8GB 显存。CUDA、MPS、ROCm、CPU 推理都支持。

槽点

第一，功能太多，第一次打开会眼花缭乱。第二，模型下载需要联网且总量挺大（各引擎模型累加起来好几 GB）。第三，有些功能（如语音克隆）质量不如专门工具（GPT-SoVITS），但好在能用同一个界面调。第四，Tauri 桌面端稳定性在 Linux 上还有提升空间。

一句话

如果你想要一个「装一个就够」的语音工具箱，OmniVoice-Studio 是目前最好的选择。

GitHub：debpalash/OmniVoice-Studio

标签：#OmniVoice-Studio #ElevenLabs替代 #本地语音克隆 #语音设计 #视频配音 #有声书 #MCP #开源桌面App

OmniVoice-Studio：7.5K Star的开源语音工作室，本地运行的ElevenLabs替代

是什么

核心功能

语音克隆

语音设计

视频配音

有声书编辑器

多角色故事创作

听写挂件

人声分离

批量处理队列

MCP 服务器

硬件需求

槽点

一句话

💬 评论区（0 条评论）

📤 分享这篇文章

是什么

核心功能

语音克隆

语音设计

视频配音

有声书编辑器

多角色故事创作

听写挂件

人声分离

批量处理队列

MCP 服务器

硬件需求

槽点

一句话

💬 评论区 （0 条评论）

📤 分享这篇文章

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）