VibeThinker-3B：微博开源3B参数模型，AIME 94.3打爆DeepSeek V3.2

微博最近扔出一个模型叫 VibeThinker-3B，30 亿参数，在 AIME 2026 上拿了 94.3 分。DeepSeek V3.2 拿了 91.7。差距不大，但别忘了这俩差了几十倍的参数量。

这个 3B 参数量的小家伙是怎么做到的？

VibeThinker-3B 封面图

从 Qwen2.5-Coder-3B 出发，四阶段炼成

VibeThinker-3B 的底子是阿里巴巴的 Qwen2.5-Coder-3B，然后微博加了四阶段训练：预训练 + 强化学习（RL）+ 高质量推理轨迹蒸馏。简单说，就是喂给它大量有「标准答案」的任务——数学题、代码题——让它反复练习直到搞懂推理路径。

效果确实猛：

AIME 2026：94.3（超越 DeepSeek V3.2 的 91.7）
AIME 2025：91.4
Brown 大学数学奥赛：93.8
LiveCodeBench v6（编程）：80.2 Pass@1
LeetCode 竞赛（2026年4-5月）：96.1% 通过率

单看数字，3B 参数能跑出这个成绩，确实有点反直觉。

微博的理论：「推理可以压缩」

论文里提了个有意思的假设——Parametric Compression-Coverage Hypothesis。大意是：推理类任务（有明确验证信号、能判断对错的），可以压缩进小模型；知识密集型任务（需要大量世界知识的），还是得靠大参数模型。

有个数据很说明问题：VibeThinker-3B 的 GPQA-Diamond（科学知识基准）只有 70.2 分，而 Gemini 3 Pro 拿了 91.9。数学推理能打，知识储备差一大截。这跟论文的假设完全吻合。

社区在吵什么

当然，争议也不小。

最大的质疑是：AIME、LeetCode 这些 benchmark 是不是被「针对」了？有人在 X 上吐槽：「这些题库本质是模式匹配，跟真实写代码差了十万八千里。」更有人说 LeetCode 的结果可能有题库泄漏的嫌疑。

实测过的开发者也泼了冷水：有人发现这个模型「连 UV 脚本是什么都不知道」——这是一个挺流行的 Python 工具。这说明它确实只在训练集覆盖的领域强，泛化能力有限。

微博论文声称训练集做了 n-gram 去污染处理，但真实效果还是得靠实战检验。

怎么用

VibeThinker-3B 已经开源，1.5B 的小老弟也有，还有 NVFP4 量化版，消费级显卡能跑起来。

如果你在找数学/编程推理的小模型，或者想在本地跑一个轻量的代码助手，这是个值得试的选择。别指望它百科全书式的知识储备——它的强项是「有答案」的推理任务。

GitHub：vibethinker-3b-nvfp4
HuggingFace：WeiboAI/VibeThinker

标签：#VibeThinker #微博AI #3B模型 #AIME #推理模型 #Qwen2.5-Coder #强化学习

关注我，每期分享一个帮你省事的强大工具 🛠️

VibeThinker-3B：微博开源3B参数模型，AIME 94.3打爆DeepSeek V3.2

从 Qwen2.5-Coder-3B 出发，四阶段炼成

微博的理论：「推理可以压缩」

社区在吵什么

怎么用

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

Pi Agent：79K Stars 的开源 AI 编码代理工具包

FastHTML：用Python写全栈Web应用，不写一行JS

OpenUI：W&B 开源的 AI 界面生成工具，22K Stars

Vanna 2.0：自然语言转 SQL，企业级重写后有多强？

translate-book：用Claude Code并行翻译整本书

CatPaw 猫爪：美团 AI IDE，免费 Agent 编程

从 Qwen2.5-Coder-3B 出发，四阶段炼成

微博的理论：「推理可以压缩」

社区在吵什么

怎么用

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

Pi Agent：79K Stars 的开源 AI 编码代理工具包

FastHTML：用Python写全栈Web应用，不写一行JS

OpenUI：W&B 开源的 AI 界面生成工具，22K Stars

Vanna 2.0：自然语言转 SQL，企业级重写后有多强？

translate-book：用Claude Code并行翻译整本书

CatPaw 猫爪：美团 AI IDE，免费 Agent 编程

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）