写个脚本创意,半天做不出视频?AI 视频生成工具不少,但大部分只能做几秒短片,没法把「一个想法」变成完整故事片。今天聊的 ViMax,走的是另一条路——用多智能体流水线,把「一句话 → 完整视频」这件事真正打通了。

是什么
ViMax 是香港大学数据科学实验室(HKUDS)开源的智能体视频生成框架,GitHub 9.5K⭐。它不是又一款「文本→几秒片段」的工具——ViMax 的设计目标是端到端:你给一个创意、一段小说、或者一个完整剧本,它自动完成全部制作流程。
三种输入模式:
创意→视频 —— 一句话描述(比如「一只猫和狗是最好的朋友,遇到一只新猫会怎样?」),ViMax 自动生成剧本、分镜、画面、配音,输出完整 MP4。
小说→视频 —— 上传整本小说,智能分析角色和情节,压缩为分集视频,逐场景改编。角色外观跨集保持一致。
剧本→视频 —— 你有现成剧本?直接输入,ViMax 按照分镜规则逐场景生成,适合专业创作者精细控制。
多智能体架构:导演+编剧+制片+摄影师
ViMax 内部跑着一整套影视制作团队——只是都是 AI:
中央调度 负责整体流程:把输入拆成多个场景,调度各智能体协作。
剧本智能体 基于 RAG 的长文本引擎,分析小说级内容,自动切分场景、提取角色和对话。
分镜智能体 用电影语言设计镜头——推拉摇移、正反打、节奏点,不懂摄影也没关系。
多机位模拟 同一场景从多个角度拍摄,保证角色位置和背景一致性。
参考图选择器 智能选取首帧参考图,跟踪前序镜头的视觉元素,长视频不穿帮。
一致性校验 每帧画面自动验证——角色长相、服装、场景是否对。不对就重生成,不让你手动挑片。
并行生成 同一机位的连续镜头并行处理,效率高。
安装使用
一行命令安装依赖:
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
配置好 LLM(支持 OpenRouter、Gemini 等)、图像生成器、视频生成器的 API key,然后:
vimax tui new
启动交互式 TUI,输入创意,等视频生成。或者直接跑 Python 脚本批处理。
不是没有槽点
ViMax 方向很好,但目前有几个明显短板:
依赖外部 API。 ViMax 自己不跑模型,需要外部 LLM、图像生成、视频生成 API。你用 Gemini/OpenRouter 加 Google Veo,成本不低。想完全本地跑?暂时不行。
视频质量上限取决于下游模型。 ViMax 是编排层,不负责生成质量。你用的视频生成模型啥水平,最终视频就啥水平。
生成速度。 多智能体流水线意味着多次 API 调用——一个 1 分钟视频可能跑几分钟到十几分钟。不是即开即用的类型。
安装门槛。 uv 管理依赖,但 PyTorch 等计算库的版本兼容性可能需要折腾。纯 Linux/Windows,Mac 用户需要自己适配。
跟同类怎么比
Runway Gen-3/Gen-4 闭源,质量顶尖,但只能做短片,没有叙事能力。Pika 也是片段级,没剧本层。
ViMax 走的是另一条路——不是「更好的片段生成器」,而是「完整的视频制作流水线」。它的价值不在画质(取决于底层模型),而在把创意到成片的流程自动化了。如果你有小说想可视化、有剧本想快速出 Demo、或者想批量做短视频内容,ViMax 是目前开源项目里最接近「AI 导演」的东西。
GitHub:https://github.com/HKUDS/ViMax
论文:https://arxiv.org/abs/2606.07649
标签:#ViMax #AI视频生成 #多智能体 #开源 #剧本转视频 #HKUDS #AI导演
关注我,每期分享一个帮你省事的强大工具 🛠️