美团开源了一个 AI 大模型全家桶,品牌叫 LongCat(长猫)。不是单个模型,是一整套——从 560B MoE 基座语言模型、到 13.6B 视频生成、到 75B 原生多模态、再到 SOTA 语音合成,全链路都在 GitHub 上开源了。
我翻了一遍它们的仓库和技术报告,发现这套东西的完整度和工程质量都很高,不是那种「发了论文就跑路」的开源。

LongCat 家族都有谁
LongCat-Flash(560B MoE 基座模型)
这是 LongCat 的核心基座。560B 总参数、27B 激活参数(动态范围 18.6B-31.3B),采用了 Shortcut-connected MoE(ScMoE)架构来扩大计算-通信重叠窗口,推理速度能到 100+ tokens/s。训练时用了 PID 控制器做专家负载均衡、hidden z-loss 抑制大激活值、确定性计算保证实验可复现——这些工程细节说明美团的训练栈很成熟。上下文 128K,Agent 任务表现突出。作为一个非推理模型,它在同尺寸模型中竞争力很强。
技术报告:arxiv.org/abs/2509.01322
LongCat-Video(13.6B 视频生成模型) ⭐4,238
统一框架支持 Text-to-Video、Image-to-Video、Video-Continuation 三种任务。原生预训练在视频续写任务上,所以能生成分钟级长视频,不存在色彩漂移或质量衰减。720p 30fps 几分钟就能出一段,用 coarse-to-fine 时空生成策略 + Block Sparse Attention 做加速。还加了多奖励 GRPO RLHF 对齐。还有个 Avatar 1.5 版本做音频驱动的数字人视频生成,用 Whisper 代替 Wav2Vec2,唇形同步更准。
技术报告:arxiv.org/abs/2510.22200
LongCat-Next(75B-A3B 原生多模态模型)
文本 + 视觉 + 音频统一到一个自回归框架里。核心创新是 DiNA(Discrete Native Autoregression)——把视觉和音频也变成 token,用同一个 next-token prediction 框架来训。视觉部分用了 Semantic-and-Aligned Encoder + RVQ 做层次化离散表示,在 28× 压缩比下还能保持生成质量。它能同时做看图、创作、对话,在多个多模态 benchmark 上表现不错。
LongCat-AudioDiT(SOTA 语音合成) ⭐521
直接在波形隐空间做的 Diffusion TTS,跳过了 mel-spectrogram 中间表示,避免级联误差。3.5B 版本在 Seed 基准上 speaker similarity(SIM)达到了 0.818(中文)、0.797(中文 Hard),超过了 Seed-TTS 之前的 SOTA 成绩。支持零样本语音克隆,音质和相似度都很强。
LongCat-Flash-Prover(560B 形式化推理)
专门做 Lean4 数学证明的 MoE 模型。用 Native Formal Reasoning 在数学竞赛题上表现亮眼。
值得关注的点
全 MIT 许可。 这些模型全部 MIT License,不是那种「研究用可以商用不行」的纠结许可。这对企业落地非常友好。
推理速度是重点工程方向。 Flash 模型 100+ TPS,Video 模型几分钟出 720p 视频,AudioDiT 扩散步数少。美团的工程团队明显在推落地而非纯刷榜。
Agent 能力被特意强化了。 Flash 模型从预训练阶段就有两阶段数据融合策略集中推理密集型数据,后训练用多 Agent 合成框架生成复杂任务。不是「顺便能做 Agent」,是专门为 Agent 设计的。
多奖励 RLHF。 视频模型上的多奖励 GRPO 训练跟语言模型的对齐思路一脉相承,说明这套技术栈在不同模态间是复用的。
不是没有槽点
生态还在早期。 跟 Llama 相比,LongCat 的社区还不大,模型不多,工具链也不成熟。你要当主力基座用,得做好自己搭基础设施的准备。
部署成本不低。 Flash 560B 虽然在 MoE 里只激活 27B,但模型加载还是需要不小的显存。Video 模型也需要 GPU。不是笔记本能跑的级别。
中文资料多,英文社区还没起来。 文档和 README 大部分是中文,英文用户门槛略高。不过对你来说这反而是优势。
技术报告比代码多。 有些子项目的代码还没完全公开,目前主要是推理代码和模型权重。训练代码和完整 pipeline 还没放出来。
一句话
美团这一波 LongCat 的开源力度很大,从语言到视频到语音到多模态全链路覆盖,MIT 许可,工程质量在线。如果你在做 AI 应用落地、需要一个可靠的开源基座,或者你在做视频/语音相关产品,LongCat 值得放进你的评估列表。尤其是 Flash 基座和 Video 模型,在同类型开源方案里属于第一梯队。
GitHub:github.com/meituan-longcat
在线体验:longcat.ai
HuggingFace:huggingface.co/meituan-longcat
标签:#美团LongCat #AI大模型 #MoE #视频生成 #多模态 #语音合成 #开源
关注我,每期分享一个帮你省事的强大工具 🛠️