美团 LongCat：560B MoE、视频生成、多模态、语音合成，全链路开源全家桶

美团开源了一个 AI 大模型全家桶，品牌叫 LongCat（长猫）。不是单个模型，是一整套——从 560B MoE 基座语言模型、到 13.6B 视频生成、到 75B 原生多模态、再到 SOTA 语音合成，全链路都在 GitHub 上开源了。

我翻了一遍它们的仓库和技术报告，发现这套东西的完整度和工程质量都很高，不是那种「发了论文就跑路」的开源。

美团 LongCat AI 大模型全家桶

LongCat 家族都有谁

LongCat-Flash（560B MoE 基座模型）

这是 LongCat 的核心基座。560B 总参数、27B 激活参数（动态范围 18.6B-31.3B），采用了 Shortcut-connected MoE（ScMoE）架构来扩大计算-通信重叠窗口，推理速度能到 100+ tokens/s。训练时用了 PID 控制器做专家负载均衡、hidden z-loss 抑制大激活值、确定性计算保证实验可复现——这些工程细节说明美团的训练栈很成熟。上下文 128K，Agent 任务表现突出。作为一个非推理模型，它在同尺寸模型中竞争力很强。

技术报告：arxiv.org/abs/2509.01322

LongCat-Video（13.6B 视频生成模型） ⭐4,238

统一框架支持 Text-to-Video、Image-to-Video、Video-Continuation 三种任务。原生预训练在视频续写任务上，所以能生成分钟级长视频，不存在色彩漂移或质量衰减。720p 30fps 几分钟就能出一段，用 coarse-to-fine 时空生成策略 + Block Sparse Attention 做加速。还加了多奖励 GRPO RLHF 对齐。还有个 Avatar 1.5 版本做音频驱动的数字人视频生成，用 Whisper 代替 Wav2Vec2，唇形同步更准。

技术报告：arxiv.org/abs/2510.22200

LongCat-Next（75B-A3B 原生多模态模型）

文本 + 视觉 + 音频统一到一个自回归框架里。核心创新是 DiNA（Discrete Native Autoregression）——把视觉和音频也变成 token，用同一个 next-token prediction 框架来训。视觉部分用了 Semantic-and-Aligned Encoder + RVQ 做层次化离散表示，在 28× 压缩比下还能保持生成质量。它能同时做看图、创作、对话，在多个多模态 benchmark 上表现不错。

LongCat-AudioDiT（SOTA 语音合成） ⭐521

直接在波形隐空间做的 Diffusion TTS，跳过了 mel-spectrogram 中间表示，避免级联误差。3.5B 版本在 Seed 基准上 speaker similarity（SIM）达到了 0.818（中文）、0.797（中文 Hard），超过了 Seed-TTS 之前的 SOTA 成绩。支持零样本语音克隆，音质和相似度都很强。

LongCat-Flash-Prover（560B 形式化推理）

专门做 Lean4 数学证明的 MoE 模型。用 Native Formal Reasoning 在数学竞赛题上表现亮眼。

值得关注的点

全 MIT 许可。 这些模型全部 MIT License，不是那种「研究用可以商用不行」的纠结许可。这对企业落地非常友好。

推理速度是重点工程方向。 Flash 模型 100+ TPS，Video 模型几分钟出 720p 视频，AudioDiT 扩散步数少。美团的工程团队明显在推落地而非纯刷榜。

Agent 能力被特意强化了。 Flash 模型从预训练阶段就有两阶段数据融合策略集中推理密集型数据，后训练用多 Agent 合成框架生成复杂任务。不是「顺便能做 Agent」，是专门为 Agent 设计的。

多奖励 RLHF。 视频模型上的多奖励 GRPO 训练跟语言模型的对齐思路一脉相承，说明这套技术栈在不同模态间是复用的。

不是没有槽点

生态还在早期。 跟 Llama 相比，LongCat 的社区还不大，模型不多，工具链也不成熟。你要当主力基座用，得做好自己搭基础设施的准备。

部署成本不低。 Flash 560B 虽然在 MoE 里只激活 27B，但模型加载还是需要不小的显存。Video 模型也需要 GPU。不是笔记本能跑的级别。

中文资料多，英文社区还没起来。 文档和 README 大部分是中文，英文用户门槛略高。不过对你来说这反而是优势。

技术报告比代码多。 有些子项目的代码还没完全公开，目前主要是推理代码和模型权重。训练代码和完整 pipeline 还没放出来。

一句话

美团这一波 LongCat 的开源力度很大，从语言到视频到语音到多模态全链路覆盖，MIT 许可，工程质量在线。如果你在做 AI 应用落地、需要一个可靠的开源基座，或者你在做视频/语音相关产品，LongCat 值得放进你的评估列表。尤其是 Flash 基座和 Video 模型，在同类型开源方案里属于第一梯队。

GitHub：github.com/meituan-longcat
在线体验：longcat.ai
HuggingFace：huggingface.co/meituan-longcat

标签：#美团LongCat #AI大模型 #MoE #视频生成 #多模态 #语音合成 #开源

关注我，每期分享一个帮你省事的强大工具 🛠️