首页 AI编程工具 VibeThinker-3B:微博开源3B参数模型,AIME 94.3打爆DeepSeek V3.2

VibeThinker-3B:微博开源3B参数模型,AIME 94.3打爆DeepSeek V3.2

📅 2026/6/18 👁 阅读 22 🔗 工具访问 3 次 📂 AI编程工具
VibeThinker-3B:微博开源3B参数模型,AIME 94.3打爆DeepSeek V3.2

工具地址

https://huggingface.co/WeiboAI/VibeThinker

🚀 访问工具

微博最近扔出一个模型叫 VibeThinker-3B,30 亿参数,在 AIME 2026 上拿了 94.3 分。DeepSeek V3.2 拿了 91.7。差距不大,但别忘了这俩差了几十倍的参数量。

这个 3B 参数量的小家伙是怎么做到的?

VibeThinker-3B 封面图

从 Qwen2.5-Coder-3B 出发,四阶段炼成

VibeThinker-3B 的底子是阿里巴巴的 Qwen2.5-Coder-3B,然后微博加了四阶段训练:预训练 + 强化学习(RL)+ 高质量推理轨迹蒸馏。简单说,就是喂给它大量有「标准答案」的任务——数学题、代码题——让它反复练习直到搞懂推理路径。

效果确实猛:

单看数字,3B 参数能跑出这个成绩,确实有点反直觉。

微博的理论:「推理可以压缩」

论文里提了个有意思的假设——Parametric Compression-Coverage Hypothesis。大意是:推理类任务(有明确验证信号、能判断对错的),可以压缩进小模型;知识密集型任务(需要大量世界知识的),还是得靠大参数模型。

有个数据很说明问题:VibeThinker-3B 的 GPQA-Diamond(科学知识基准)只有 70.2 分,而 Gemini 3 Pro 拿了 91.9。数学推理能打,知识储备差一大截。这跟论文的假设完全吻合。

社区在吵什么

当然,争议也不小。

最大的质疑是:AIME、LeetCode 这些 benchmark 是不是被「针对」了?有人在 X 上吐槽:「这些题库本质是模式匹配,跟真实写代码差了十万八千里。」更有人说 LeetCode 的结果可能有题库泄漏的嫌疑。

实测过的开发者也泼了冷水:有人发现这个模型「连 UV 脚本是什么都不知道」——这是一个挺流行的 Python 工具。这说明它确实只在训练集覆盖的领域强,泛化能力有限。

微博论文声称训练集做了 n-gram 去污染处理,但真实效果还是得靠实战检验。

怎么用

VibeThinker-3B 已经开源,1.5B 的小老弟也有,还有 NVFP4 量化版,消费级显卡能跑起来。

如果你在找数学/编程推理的小模型,或者想在本地跑一个轻量的代码助手,这是个值得试的选择。别指望它百科全书式的知识储备——它的强项是「有答案」的推理任务。

GitHub:vibethinker-3b-nvfp4
HuggingFace:WeiboAI/VibeThinker

标签:#VibeThinker #微博AI #3B模型 #AIME #推理模型 #Qwen2.5-Coder #强化学习


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫