OmniVoice Studio
语音 AI 工具的市场长久以来由 ElevenLabs 主导,但它的订阅费用($5-$330/月)和云端数据处理方式让不少用户望而却步。现在,一款名为 OmniVoice Studio 的开源项目彻底改变了这一局面。
OmniVoice Studio 是 GitHub 上爆炸式增长的开源桌面应用(6,891 ⭐,仅 2 个月),被广泛称为「ElevenLabs 的开源替代品」。它将语音克隆、视频配音、实时听写、声音设计等功能整合到一个漂亮的本机桌面应用中——完全本地运行,无需 API Key,不限使用次数。

OmniVoice Studio 是什么?
简单说,这是一个一整套语音 AI 平台,包含:
- 语音克隆:3 秒音频样本即可克隆任意声音,覆盖 646 种语言
- 声音设计:调节性别、年龄、口音、音高、语速、情绪、方言
- 视频配音:贴入 YouTube 链接或上传文件 → 转录 → 翻译 → 重新配音 → 导出 MP4
- 实时听写:⌘+⇧+Space 全局快捷键,在任何应用中听写并自动粘贴
- 人声分离:基于 Demucs 的 AI 去背景音乐
- 说话人分离:自动识别谁说了什么话
为什么火爆?
| 特性 | ElevenLabs | OmniVoice Studio |
| 价格 | $5-$330/月 | 免费开源 |
| 数据隐私 | 音频上传云端 | 完全本地,不离开机器 |
| 语言 | 32 种 | 646 种 |
| GPU 自动检测 | 不适用(云端) | CUDA · MPS · ROCm · CPU |
| 桌面应用 | ❌ | macOS · Windows · Linux |
开源 & 可扩展
OmniVoice Studio 采用 AGPL-3.0 协议,代码完全开放。支持多引擎后端:
- OmniVoice(默认):600+ 语言,零样本克隆
- CosyVoice 3:9 种语言 + 18 种方言
- MLX-Audio:Kokoro、Qwen3-TTS 等(Apple Silicon)
- VoxCPM2、MOSS-TTS-Nano、KittenTTS 等
更强大的是,它内置 MCP 服务端,可以直接从 Claude Desktop 或 Cursor 中调用本地语音能力——让 AI 也能「开口说话」。
硬件要求
- 最低:8GB 内存,4GB 显存(自动降级到 CPU)
- 推荐:16GB+ 内存,8GB+ 显存(RTX 3060+)
- 支持 Apple Silicon MPS 硬件加速
安装方式
提供预编译安装包:macOS DMG(Apple Silicon)、Windows MSI、Linux AppImage/.deb,也支持 Docker 部署。
总结
OmniVoice Studio 在短短 2 个月内获得了近 7K ⭐,说明了市场对本地化、开源语音 AI 工具的强烈需求。它不仅是 ElevenLabs 的平替,在语言覆盖(646 vs 32)、数据隐私和可扩展性上甚至超越了前者。对于视频创作者、播客制作者、语言本地化团队来说,这是一款值得立即尝试的工具。
关注我,获取更多 AI 工具推荐