首页 OmniVoice-Studio:7.5K Star的开源语音工作室,本地运行的ElevenLabs替代

OmniVoice-Studio:7.5K Star的开源语音工作室,本地运行的ElevenLabs替代

📅 2026/6/25 👁 阅读 5 🔗 工具访问 0 次

市面上的 ElevenLabs 替代品不少,但做到这个程度的真不多。OmniVoice-Studio 是一个全功能本地语音工作室——语音克隆、语音设计、视频配音、有声书生成、听写、人声分离,全部在一个桌面 App 里。

7.5K Stars,AGPL-3.0 开源。不用任何 API Key、不上传任何数据到云端,纯本地运行。

是什么

OmniVoice-Studio 是一个跨平台桌面应用(macOS/Windows/Linux),整合了 TTS 和 ASR 两大能力。内置 11 个 TTS 引擎(OmniVoice、CosyVoice 3、GPT-SoVITS 等),9 个 ASR 引擎(WhisperX、Faster-Whisper、FunASR 等)。

架构是 React 前端 + FastAPI 后端 + SQLite,Tauri 封装。可以理解为把各种主流语音能力打包成了一个好用的图形工具。

核心功能

语音克隆

3 秒音频片段就能零样本克隆,支持 646 种语言。克隆质量取决于参考音频质量,好的参考几乎能完全还原。

语音设计

用参数调声音:性别、年龄、口音、音高、语速、情绪。不需要找参考音频就能生成一个虚拟的声音角色。

视频配音

输入 YouTube 链接或本地视频文件,自动识别语音→翻译→重新配音→导出 MP4。内置完整的配音流水线。

有声书编辑器

导入 EPUB/PDF/TXT,自动分章节,批量生成有声内容,导出 .m4b 格式。支持 loudnorm 标准化音量。

多角色故事创作

每行对白可以指定不同的语音角色,适合创作播客和有声故事。

听写挂件

全局快捷键 ⌘+⇧+Space,在任何应用中开启语音转文字,自动粘贴到当前输入框。实测速度很快。

人声分离

基于 Demucs 的分离引擎,可以去掉人声保留背景,或者提取人声。

批量处理队列

一次最多 50 个视频任务,每个任务有独立进度。适合批量处理大量内容。

MCP 服务器

内置 MCP Server,可以从 Claude、Cursor 等 MCP 客户端直接调用它的语音能力。

硬件需求

最低 8GB 内存 + 4GB 显存(会自动卸载到 CPU),推荐 16GB+ 内存 + 8GB 显存。CUDA、MPS、ROCm、CPU 推理都支持。

槽点

第一,功能太多,第一次打开会眼花缭乱。第二,模型下载需要联网且总量挺大(各引擎模型累加起来好几 GB)。第三,有些功能(如语音克隆)质量不如专门工具(GPT-SoVITS),但好在能用同一个界面调。第四,Tauri 桌面端稳定性在 Linux 上还有提升空间。

一句话

如果你想要一个「装一个就够」的语音工具箱,OmniVoice-Studio 是目前最好的选择。

GitHub:debpalash/OmniVoice-Studio

标签:#OmniVoice-Studio #ElevenLabs替代 #本地语音克隆 #语音设计 #视频配音 #有声书 #MCP #开源桌面App

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

微信扫码分享

打开微信扫一扫