让 AI 自己优化自己,这件事听起来像科幻,但有人真把它做出来了。
hexo-ai 团队前不久开源了 SIA(Self-Improving AI),一个 MIT 协议的自改进框架。不是什么花哨的 demo,而是有论文、有基准测试、有真实数据的那种。论文发表在 arXiv(2605.27276),测试结果很能打——LawBench 上做到 70.1% Top-1 准确率(之前 SOTA 是 45%),GPU 内核加速了 14 倍,单细胞 RNA 降噪效果比之前的 SOTA 还好。
是什么
SIA 不是又一个 Agent 框架,它是一个「让 Agent 能自己迭代改进自己的框架」。核心逻辑是三个角色配合:
- Meta-Agent:读任务描述,生成初始的 Target Agent(包括代码和 prompt)
- Target Agent:去执行任务,记录操作日志和结果
- Feedback Agent:分析 Target 的日志,找出可以改进的地方,然后更新 Target 的代码和权重
这三者形成一个闭环,一代一代往下跑。每一代 Target 都比上一代强。
凭什么说它有效
看数据说话:
- LawBench(法律罪名预测):SIA 的 W+H 版本(同时更新 Harness 和权重)做到 70.1% 准确率,之前的 SOTA 只有 45%。56.6% 的提升不是挤牙膏,是直接翻了个身。
- TriMul CUDA 内核优化:AlphaFold-3 的三角形乘法更新(TriMul),要在 H100 上写 Triton 内核。SIA 优化后比基线快了 14 倍。
- scRNA-seq 降噪:单细胞 RNA 测序数据去噪,SIA-W+H 的 MSEnorm 达到 0.289,超越之前的最佳 0.220。
- MLE-Bench Hard:OpenAI 出的真实 Kaggle 比赛评测,SIA 在所有测试版本中排名第一。
数据本身能说明情况:它不是偶尔蒙对一两个任务,而是横跨法律、生物、GPU 编程、Kaggle 竞赛等多个领域都有效。
怎么用
安装很简单。
pip install 'sia-agent[claude]'
export ANTHROPIC_API_KEY="..."
sia run --task gpqa --max_gen 5 --run_id 1
也可以选 OpenHands 后端,支持 Gemini、OpenAI、Anthropic 等多种模型源。
pip install 'sia-agent[openhands]'
sia run --task gpqa --target-agent-profile kimi-nebius-target --max_gen 5 --run_id 1
内置 4 个任务直接跑:GPQA、LawBench、LongCoT-Chess、Spaceship-Titanic。也可以用自己的数据集,按规定格式放目录里,用 --task_dir 指定就行。
跑的过程中有个实时仪表盘(http://127.0.0.1:8000),能看每代 Target Agent 的代码、评估分数变化、改进记录。跑完了用 sia web 也能打开看。
架构设计说得过去
SIA 的 Profile 系统值得提一下。你可以自定义 Provider(模型供应商)和 Profile(角色配置),都是 JSON 文件,不写代码:
{
"provider_id": "my-endpoint",
"client_kind": "openai",
"base_url": "https://api.example.com/v1",
"api_key_env": "MY_ENDPOINT_API_KEY"
}
{
"profile_id": "my-target",
"model": "vendor/my-model",
"provider_id": "my-endpoint",
"agent_reference": "default"
}
直接 sia run --target-agent-profile my-target 就能用。想换个模型跑跑看,改个 JSON 就行。
不是没有槽点
说几个真实感受:
- Python 3.11+ 起步:部分生产环境还在 Python 3.10,想用得先升版本。
- Claude 闭源依赖:Claude Agent 后端只能跑 Anthropic 模型。OpenHands 后端虽然多模型支持,但配置起来稍微复杂一点。
- 内置任务还不够多:4 个内置任务做演示够用,但真正用起来基本要走自定义任务流程,得自己搭评估器。
- 算力成本:每一代都要跑 Meta 生成、Target 执行、Feedback 分析、Weight 更新...越多代开销越大,不是轻量级框架。
跟类似项目比
MLE-Bench 也是测 Agent 能力的,但它是固定评测集,不涉及「让 Agent 改进自己」。AutoML 也做自动优化,但偏重模型架构搜索和超参调优,不是 Agent 级别的自我迭代。SIA 的独特之处在于它同时改代码和权重,不是只改 prompt。
一句话:如果你手头有 benchmark 任务想刷榜,或者想让某个 AI 系统持续自我优化,SIA 值得一试。MIT 协议、论文开源、数据透明,没什么可犹豫的。
GitHub:https://github.com/hexo-ai/sia
论文:arXiv 2605.27276
标签:#SIA #自改进AI #Agent框架 #MIT开源 #MLEBench #LawBench #AI研究 #hexo-ai
关注我,每期分享一个帮你省事的强大工具 🛠️