首页 AI智能体 SIA:MIT开源自改进AI框架,让任意模型自己迭代变强

SIA:MIT开源自改进AI框架,让任意模型自己迭代变强

📅 2026/6/14 👁 阅读 5 🔗 工具访问 3 次
SIA:MIT开源自改进AI框架,让任意模型自己迭代变强

工具地址

https://github.com/hexo-ai/sia

🚀 访问工具

让 AI 自己优化自己,这件事听起来像科幻,但有人真把它做出来了。

hexo-ai 团队前不久开源了 SIA(Self-Improving AI),一个 MIT 协议的自改进框架。不是什么花哨的 demo,而是有论文、有基准测试、有真实数据的那种。论文发表在 arXiv(2605.27276),测试结果很能打——LawBench 上做到 70.1% Top-1 准确率(之前 SOTA 是 45%),GPU 内核加速了 14 倍,单细胞 RNA 降噪效果比之前的 SOTA 还好。

SIA 自改进AI框架

是什么

SIA 不是又一个 Agent 框架,它是一个「让 Agent 能自己迭代改进自己的框架」。核心逻辑是三个角色配合:

这三者形成一个闭环,一代一代往下跑。每一代 Target 都比上一代强。

凭什么说它有效

看数据说话:

数据本身能说明情况:它不是偶尔蒙对一两个任务,而是横跨法律、生物、GPU 编程、Kaggle 竞赛等多个领域都有效。

怎么用

安装很简单。

pip install 'sia-agent[claude]'
export ANTHROPIC_API_KEY="..."
sia run --task gpqa --max_gen 5 --run_id 1

也可以选 OpenHands 后端,支持 Gemini、OpenAI、Anthropic 等多种模型源。

pip install 'sia-agent[openhands]'
sia run --task gpqa --target-agent-profile kimi-nebius-target --max_gen 5 --run_id 1

内置 4 个任务直接跑:GPQA、LawBench、LongCoT-Chess、Spaceship-Titanic。也可以用自己的数据集,按规定格式放目录里,用 --task_dir 指定就行。

跑的过程中有个实时仪表盘(http://127.0.0.1:8000),能看每代 Target Agent 的代码、评估分数变化、改进记录。跑完了用 sia web 也能打开看。

架构设计说得过去

SIA 的 Profile 系统值得提一下。你可以自定义 Provider(模型供应商)和 Profile(角色配置),都是 JSON 文件,不写代码:

{
  "provider_id": "my-endpoint",
  "client_kind": "openai",
  "base_url": "https://api.example.com/v1",
  "api_key_env": "MY_ENDPOINT_API_KEY"
}

{
  "profile_id": "my-target",
  "model": "vendor/my-model",
  "provider_id": "my-endpoint",
  "agent_reference": "default"
}

直接 sia run --target-agent-profile my-target 就能用。想换个模型跑跑看,改个 JSON 就行。

不是没有槽点

说几个真实感受:

跟类似项目比

MLE-Bench 也是测 Agent 能力的,但它是固定评测集,不涉及「让 Agent 改进自己」。AutoML 也做自动优化,但偏重模型架构搜索和超参调优,不是 Agent 级别的自我迭代。SIA 的独特之处在于它同时改代码和权重,不是只改 prompt。

一句话:如果你手头有 benchmark 任务想刷榜,或者想让某个 AI 系统持续自我优化,SIA 值得一试。MIT 协议、论文开源、数据透明,没什么可犹豫的。

GitHub:https://github.com/hexo-ai/sia
论文:arXiv 2605.27276

标签:#SIA #自改进AI #Agent框架 #MIT开源 #MLEBench #LawBench #AI研究 #hexo-ai


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫