首页 AI开发平台 FunASR:阿里达摩院开源语音识别工具包,比 Whisper 快 13 倍

FunASR:阿里达摩院开源语音识别工具包,比 Whisper 快 13 倍

📅 2026/6/6 👁 阅读 3 🔗 工具访问 0 次
FunASR:阿里达摩院开源语音识别工具包,比 Whisper 快 13 倍

工具地址

https://github.com/modelscope/FunASR

🚀 访问工具

做语音转文字,以前要么用云服务(一年几万到几十万),要么用 Whisper(慢得要 GPU)。

FunASR 是阿里达摩院开源的东西,一套代码搞定语音识别、说话人分离、情感识别、标点恢复。最离谱的是速度——SenseVoice 小模型在 CPU 上能跑到 17 倍实时,意思是你录了一分钟音频,它三秒半转完。

GitHub 17k+ stars,MIT 协议,随便用。

是什么

FunASR 全称 Fun Automatic Speech Recognition,是个端到端的语音识别工具包。它是一整套方案,不只是一个单一模型。

端到端 ASR —— 给一段音频,直接出带标点的文字。不用分段、不用额外处理。

说话人分离 —— 多人开会录音扔进去,自动识别谁在什么时候说了什么。内置 cam++ 模型,不用再集成 pyannote 之类的东西。

情感识别 —— 能识别说话人的情绪,高兴、愤怒还是悲伤。客服质检这种场合很好用。

音频事件检测 —— 识别音频里的掌声、笑声、背景音乐。SenseVoice 模型自带这个能力。

流式识别 —— 边说话边转文字,WebSocket 支持,延迟极低。

OpenAI 兼容 API —— 可以当 Whisper API 的平替直接用。甚至还上了 MCP Server,Claude/Cursor 直接调。

核心优势

速度是降维打击。 SenseVoice-Small 在 GPU 上跑 170 倍实时,CPU 上 17 倍实时。Whisper large-v3 在 GPU 上才 13 倍实时。FunASR 在 CPU 上比 Whisper 在 GPU 上还快,这差距就离谱。

中文识别确实强。 阿里自己喂的中文数据够多。不管是普通话还是带点口音的,准确率都远高于 Whisper。如果你主要做中文语音识别,基本不用纠结。

一体化输出。 别的工具一条音频要跑 VAD 切段、再跑 ASR 识别、再跑标点、再跑说话人分离。FunASR 一行代码全搞定,输出直接带说话人标签和标点。

CPU 可跑。 很多团队没有 GPU 资源。FunASR 的 Paraformer 和 SenseVoice 在 CPU 上就能跑出不错的实时率,不用烧显卡。

生态完整。 有 Docker 镜像、有 OpenAI 兼容 API、有 MCP Server、有 vLLM 加速。说实话它不只是一个 Python 库,是整套可部署的方案。

安装使用

装起来不复杂:

pip install torch torchaudio
pip install funasr

跑一段音频:

from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall")
result = model.generate(input="meeting.wav")

想部署成 API 服务更简单:

funasr-server --device cuda

然后在 localhost:8000 就能用 OpenAI 格式调用了。

不是没有槽点

多语言不如 Whisper。 FunASR 的核心模型主攻中英日韩粤,虽然最近有了 Qwen3-ASR 覆盖 52 种语言,但生态还是不如 Whisper 的 57 语言那么成熟。如果你需要小语种识别,Whisper 更稳。

模型碎片化。 不同任务要装不同模型组合。AutoModel 虽然统一了入口,但背后要下载好几个模型文件,第一次跑得等一阵。

文档偏中文。 毕竟中国团队做的,文档和示例代码主要面向中文用户。英文用户用起来有点门槛。

SenseVoice 不给词级别时间戳。 如果你需要每个词精确的时间点,得用 VAD 模式兜底,多一层处理。

依赖 PyTorch。 推理环境整体偏重。有些纯 ONNX 的轻量化方案体积更小,FunASR 的部署得带上 PyTorch。

跟同类怎么比

vs Whisper: 中文场景 FunASR 完胜——更快、更准、功能更多。多语言和各种奇怪语种选 Whisper。另外 Whisper 没有流式识别,没有说话人分离,功能上差了一截。

vs 云服务(阿里云、讯飞): 云服务省事,不用自己部署。但一年几万到几十万的费用,中小团队用 FunASR 自部署划算得多。MIT 协议商用不用操心。

一句话: 做中文语音识别,FunASR 是目前开源方案里最稳妥的选择。速度快、功能全、部署灵活,我觉得没什么理由不用。

GitHub:https://github.com/modelscope/FunASR
官方文档:https://modelscope.github.io/FunASR

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫