微博最近扔出一个模型叫 VibeThinker-3B,30 亿参数,在 AIME 2026 上拿了 94.3 分。DeepSeek V3.2 拿了 91.7。差距不大,但别忘了这俩差了几十倍的参数量。
这个 3B 参数量的小家伙是怎么做到的?
从 Qwen2.5-Coder-3B 出发,四阶段炼成
VibeThinker-3B 的底子是阿里巴巴的 Qwen2.5-Coder-3B,然后微博加了四阶段训练:预训练 + 强化学习(RL)+ 高质量推理轨迹蒸馏。简单说,就是喂给它大量有「标准答案」的任务——数学题、代码题——让它反复练习直到搞懂推理路径。
效果确实猛:
- AIME 2026:94.3(超越 DeepSeek V3.2 的 91.7)
- AIME 2025:91.4
- Brown 大学数学奥赛:93.8
- LiveCodeBench v6(编程):80.2 Pass@1
- LeetCode 竞赛(2026年4-5月):96.1% 通过率
单看数字,3B 参数能跑出这个成绩,确实有点反直觉。
微博的理论:「推理可以压缩」
论文里提了个有意思的假设——Parametric Compression-Coverage Hypothesis。大意是:推理类任务(有明确验证信号、能判断对错的),可以压缩进小模型;知识密集型任务(需要大量世界知识的),还是得靠大参数模型。
有个数据很说明问题:VibeThinker-3B 的 GPQA-Diamond(科学知识基准)只有 70.2 分,而 Gemini 3 Pro 拿了 91.9。数学推理能打,知识储备差一大截。这跟论文的假设完全吻合。
社区在吵什么
当然,争议也不小。
最大的质疑是:AIME、LeetCode 这些 benchmark 是不是被「针对」了?有人在 X 上吐槽:「这些题库本质是模式匹配,跟真实写代码差了十万八千里。」更有人说 LeetCode 的结果可能有题库泄漏的嫌疑。
实测过的开发者也泼了冷水:有人发现这个模型「连 UV 脚本是什么都不知道」——这是一个挺流行的 Python 工具。这说明它确实只在训练集覆盖的领域强,泛化能力有限。
微博论文声称训练集做了 n-gram 去污染处理,但真实效果还是得靠实战检验。
怎么用
VibeThinker-3B 已经开源,1.5B 的小老弟也有,还有 NVFP4 量化版,消费级显卡能跑起来。
如果你在找数学/编程推理的小模型,或者想在本地跑一个轻量的代码助手,这是个值得试的选择。别指望它百科全书式的知识储备——它的强项是「有答案」的推理任务。
GitHub:vibethinker-3b-nvfp4
HuggingFace:WeiboAI/VibeThinker
标签:#VibeThinker #微博AI #3B模型 #AIME #推理模型 #Qwen2.5-Coder #强化学习
关注我,每期分享一个帮你省事的强大工具 🛠️