FunASR：阿里达摩院开源语音识别工具包，比 Whisper 快 13 倍

做语音转文字，以前要么用云服务（一年几万到几十万），要么用 Whisper（慢得要 GPU）。

FunASR 是阿里达摩院开源的东西，一套代码搞定语音识别、说话人分离、情感识别、标点恢复。最离谱的是速度——SenseVoice 小模型在 CPU 上能跑到 17 倍实时，意思是你录了一分钟音频，它三秒半转完。

GitHub 17k+ stars，MIT 协议，随便用。

是什么

FunASR 全称 Fun Automatic Speech Recognition，是个端到端的语音识别工具包。它是一整套方案，不只是一个单一模型。

端到端 ASR —— 给一段音频，直接出带标点的文字。不用分段、不用额外处理。

说话人分离 —— 多人开会录音扔进去，自动识别谁在什么时候说了什么。内置 cam++ 模型，不用再集成 pyannote 之类的东西。

情感识别 —— 能识别说话人的情绪，高兴、愤怒还是悲伤。客服质检这种场合很好用。

音频事件检测 —— 识别音频里的掌声、笑声、背景音乐。SenseVoice 模型自带这个能力。

流式识别 —— 边说话边转文字，WebSocket 支持，延迟极低。

OpenAI 兼容 API —— 可以当 Whisper API 的平替直接用。甚至还上了 MCP Server，Claude/Cursor 直接调。

核心优势

速度是降维打击。 SenseVoice-Small 在 GPU 上跑 170 倍实时，CPU 上 17 倍实时。Whisper large-v3 在 GPU 上才 13 倍实时。FunASR 在 CPU 上比 Whisper 在 GPU 上还快，这差距就离谱。

中文识别确实强。 阿里自己喂的中文数据够多。不管是普通话还是带点口音的，准确率都远高于 Whisper。如果你主要做中文语音识别，基本不用纠结。

一体化输出。 别的工具一条音频要跑 VAD 切段、再跑 ASR 识别、再跑标点、再跑说话人分离。FunASR 一行代码全搞定，输出直接带说话人标签和标点。

CPU 可跑。 很多团队没有 GPU 资源。FunASR 的 Paraformer 和 SenseVoice 在 CPU 上就能跑出不错的实时率，不用烧显卡。

生态完整。 有 Docker 镜像、有 OpenAI 兼容 API、有 MCP Server、有 vLLM 加速。说实话它不只是一个 Python 库，是整套可部署的方案。

安装使用

装起来不复杂：

pip install torch torchaudio
pip install funasr

跑一段音频：

from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall") result = model.generate(input="meeting.wav")

想部署成 API 服务更简单：

funasr-server --device cuda

然后在 localhost:8000 就能用 OpenAI 格式调用了。

不是没有槽点

多语言不如 Whisper。 FunASR 的核心模型主攻中英日韩粤，虽然最近有了 Qwen3-ASR 覆盖 52 种语言，但生态还是不如 Whisper 的 57 语言那么成熟。如果你需要小语种识别，Whisper 更稳。

模型碎片化。 不同任务要装不同模型组合。AutoModel 虽然统一了入口，但背后要下载好几个模型文件，第一次跑得等一阵。

文档偏中文。 毕竟中国团队做的，文档和示例代码主要面向中文用户。英文用户用起来有点门槛。

SenseVoice 不给词级别时间戳。 如果你需要每个词精确的时间点，得用 VAD 模式兜底，多一层处理。

依赖 PyTorch。 推理环境整体偏重。有些纯 ONNX 的轻量化方案体积更小，FunASR 的部署得带上 PyTorch。

跟同类怎么比

vs Whisper： 中文场景 FunASR 完胜——更快、更准、功能更多。多语言和各种奇怪语种选 Whisper。另外 Whisper 没有流式识别，没有说话人分离，功能上差了一截。

vs 云服务（阿里云、讯飞）： 云服务省事，不用自己部署。但一年几万到几十万的费用，中小团队用 FunASR 自部署划算得多。MIT 协议商用不用操心。

一句话： 做中文语音识别，FunASR 是目前开源方案里最稳妥的选择。速度快、功能全、部署灵活，我觉得没什么理由不用。

GitHub：https://github.com/modelscope/FunASR
官方文档：https://modelscope.github.io/FunASR

FunASR：阿里达摩院开源语音识别工具包，比 Whisper 快 13 倍

是什么

核心优势

安装使用

不是没有槽点

跟同类怎么比

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

Open Science：开源 AI 科研工作台，Claude Science 替代品

HelixDB：图+向量一体数据库，Rust 自研 5.6K⭐，AI 应用首选

LightRAG：37K⭐ 轻量图 RAG 框架，比 GraphRAG 快 2 倍

Open Lovable：开源免费 AI 对话式 React 应用构建工具

ToolJet：开源低代码平台，38K Stars 的内部工具神器

Zvec：阿里开源10.3K Stars的进程内向量数据库，v0.5.0支持全文搜索+混合检索

是什么

核心优势

安装使用

不是没有槽点

跟同类怎么比

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

Open Science：开源 AI 科研工作台，Claude Science 替代品

HelixDB：图+向量一体数据库，Rust 自研 5.6K⭐，AI 应用首选

LightRAG：37K⭐ 轻量图 RAG 框架，比 GraphRAG 快 2 倍

Open Lovable：开源免费 AI 对话式 React 应用构建工具

ToolJet：开源低代码平台，38K Stars 的内部工具神器

Zvec：阿里开源10.3K Stars的进程内向量数据库，v0.5.0支持全文搜索+混合检索

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）