视频创作这事儿,传统工具上手门槛高,剪映虽然简单但自动化程度有限。现在有个开源项目把「对话即创作」这件事做到了相当的程度——用自然语言就能完成视频理解、剪辑、甚至 AI 重塑。它叫 VideoAgent,来自香港大学团队。
1.1K Star、Python 开发、GitHub 地址贴在下面,感兴趣可以直接去看:
https://github.com/HKUDS/VideoAgent
VideoAgent 是什么
VideoAgent 是一个一站式视频智能框架,功能覆盖三大块:视频理解(问答、摘要)、视频编辑(电影级剪辑、配音视频、混剪概览)、视频重塑(表情包视频、音乐 MV、跨文化喜剧)。
它的核心理念是:用户用自然语言描述需求,系统自动规划执行路径、调用合适工具、输出成品。不用学 Premiere,不用研究 FFmpeg 命令行,说清楚要什么就行。
技术架构
VideoAgent 的架构分三层:
意图分析——把你模糊的需求拆成具体的子意图,映射到对应 Agent。比如你说「把这个视频剪成几条金句」,系统识别出你需要:视频切片 + 文字提取 + 时序重组,分别走不同的处理模块。
自主规划——图驱动的 Workflow 引擎,把意图转化成可执行的工作流序列。每一步执行完有两轮自检评估,发现问题就回滚重试,论文里说工作流组合成功率能做到 0.95。
多模态理解——分镜 Agent 把原始视频转成视觉语义索引,用户查询时可以精准匹配对应片段,而不是整段检索再硬切。
能做什么
对照表直接看官方 GitHub:
| 功能 | VideoAgent | Director | FunClip | NarratoAI | NotebookLM |
| 节拍同步剪辑 | ✅ | ✅ | ✅ | — | — |
| 故事化视频 | ✅ | — | — | — | — |
| 视频混剪概览 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 表情包视频重塑 | ✅ | — | — | — | — |
| 歌曲混剪 | ✅ | — | — | — | — |
| 跨语言适配 | ✅ | — | — | — | — |
| 视频问答 | ✅ | ✅ | — | — | ✅ |
| 音效工具 | ✅ | — | — | — | — |
功能覆盖面相当全。尤其「故事化视频」「表情包重塑」「跨语言适配」这几项,目前同类开源项目里没看到有竞品做。
怎么跑起来
官方给了完整的安装步骤,Python 3.10 环境:
git clone https://github.com/HKUDS/VideoAgent.git
conda create --name videoagent python=3.10
conda activate videoagent
conda install -y -c conda-forge pynini==2.1.5 ffmpeg
pip install -r requirements.txt
然后需要下载几个大模型权重:CosyVoice(语音合成)、fish-speech 1.5(声音克隆)、Seed-VC(音色转换)、DiffSinger(歌声合成)、Whisper(语音识别)。官方文档里都有 HuggingFace 下载链接。
完整中文文档和 Demo 视频在 GitHub 上都有,bilibili 和 YouTube 也都有配套演示。
缺点也得说
跑了几天下来,几个实际问题:
本地部署硬件要求高。需要 GPU 才能跑推理,模型加起来几十个 G,显存小的机器根本跑不动。
文档不够细。安装步骤有了,但实际使用中的问题(比如 Whisper 识别报错、模型下载失败)没有 FAQ,排查全靠看源码。
自动化程度有上限。复杂的需求(比如「把这段视频的第三段改成另一个人的声音」)需要多轮对话才能对齐,系统目前还做不到一步到位。
WebUI 不完善。目前主要靠命令行交互,普通用户用起来还是有点门槛。
跟同类比怎么样
对比表格上面已经贴了。简单说:如果你只需要单一功能(纯剪辑、纯配音),FunClip 或 NarratoAI 更轻量。但如果想一个框架搞定「理解→剪辑→重塑→配音」全流程,VideoAgent 是目前开源里最接近的一站式方案。
对比 NotebookLM 的话,NotebookLM 的视频理解能力是有的,但侧重内容分析而非创作。VideoAgent 在视频创作侧的自动化程度明显更高。
值不值得跑
如果你符合以下场景,值得试试:
- 需要批量处理视频素材、想自动化剪辑流程
- 对 AI 视频创作有需求(比如做配乐 MV、跨语言视频适配)
- 在研究多模态 Agent 架构,VideoAgent 的图驱动规划思路值得参考
如果只是想简单剪个视频、做个字幕,直接用剪映或者 FunClip 更省事。VideoAgent 的价值在于自动化程度和全流程覆盖,适合有一定技术基础、想批量跑视频工作流的用户。
GitHub:https://github.com/HKUDS/VideoAgent
论文:arXiv:2606.23327
标签:#VideoAgent #AI视频 #视频理解 #视频剪辑 #AI Agent #多模态 #开源
关注我,每期分享一个帮你省事的强大工具 🛠️