SIA：MIT开源自改进AI框架，让任意模型自己迭代变强

让 AI 自己优化自己，这件事听起来像科幻，但有人真把它做出来了。

hexo-ai 团队前不久开源了 SIA（Self-Improving AI），一个 MIT 协议的自改进框架。不是什么花哨的 demo，而是有论文、有基准测试、有真实数据的那种。论文发表在 arXiv（2605.27276），测试结果很能打——LawBench 上做到 70.1% Top-1 准确率（之前 SOTA 是 45%），GPU 内核加速了 14 倍，单细胞 RNA 降噪效果比之前的 SOTA 还好。

SIA 自改进AI框架

是什么

SIA 不是又一个 Agent 框架，它是一个「让 Agent 能自己迭代改进自己的框架」。核心逻辑是三个角色配合：

Meta-Agent：读任务描述，生成初始的 Target Agent（包括代码和 prompt）
Target Agent：去执行任务，记录操作日志和结果
Feedback Agent：分析 Target 的日志，找出可以改进的地方，然后更新 Target 的代码和权重

这三者形成一个闭环，一代一代往下跑。每一代 Target 都比上一代强。

凭什么说它有效

看数据说话：

LawBench（法律罪名预测）：SIA 的 W+H 版本（同时更新 Harness 和权重）做到 70.1% 准确率，之前的 SOTA 只有 45%。56.6% 的提升不是挤牙膏，是直接翻了个身。
TriMul CUDA 内核优化：AlphaFold-3 的三角形乘法更新（TriMul），要在 H100 上写 Triton 内核。SIA 优化后比基线快了 14 倍。
scRNA-seq 降噪：单细胞 RNA 测序数据去噪，SIA-W+H 的 MSE_norm 达到 0.289，超越之前的最佳 0.220。
MLE-Bench Hard：OpenAI 出的真实 Kaggle 比赛评测，SIA 在所有测试版本中排名第一。

数据本身能说明情况：它不是偶尔蒙对一两个任务，而是横跨法律、生物、GPU 编程、Kaggle 竞赛等多个领域都有效。

怎么用

安装很简单。

pip install 'sia-agent[claude]'
export ANTHROPIC_API_KEY="..."
sia run --task gpqa --max_gen 5 --run_id 1

也可以选 OpenHands 后端，支持 Gemini、OpenAI、Anthropic 等多种模型源。

pip install 'sia-agent[openhands]'
sia run --task gpqa --target-agent-profile kimi-nebius-target --max_gen 5 --run_id 1

内置 4 个任务直接跑：GPQA、LawBench、LongCoT-Chess、Spaceship-Titanic。也可以用自己的数据集，按规定格式放目录里，用 --task_dir 指定就行。

跑的过程中有个实时仪表盘（http://127.0.0.1:8000），能看每代 Target Agent 的代码、评估分数变化、改进记录。跑完了用 sia web 也能打开看。

架构设计说得过去

SIA 的 Profile 系统值得提一下。你可以自定义 Provider（模型供应商）和 Profile（角色配置），都是 JSON 文件，不写代码：

{
  "provider_id": "my-endpoint",
  "client_kind": "openai",
  "base_url": "https://api.example.com/v1",
  "api_key_env": "MY_ENDPOINT_API_KEY"
}

{
  "profile_id": "my-target",
  "model": "vendor/my-model",
  "provider_id": "my-endpoint",
  "agent_reference": "default"
}

直接 sia run --target-agent-profile my-target 就能用。想换个模型跑跑看，改个 JSON 就行。

不是没有槽点

说几个真实感受：

Python 3.11+ 起步：部分生产环境还在 Python 3.10，想用得先升版本。
Claude 闭源依赖：Claude Agent 后端只能跑 Anthropic 模型。OpenHands 后端虽然多模型支持，但配置起来稍微复杂一点。
内置任务还不够多：4 个内置任务做演示够用，但真正用起来基本要走自定义任务流程，得自己搭评估器。
算力成本：每一代都要跑 Meta 生成、Target 执行、Feedback 分析、Weight 更新...越多代开销越大，不是轻量级框架。

跟类似项目比

MLE-Bench 也是测 Agent 能力的，但它是固定评测集，不涉及「让 Agent 改进自己」。AutoML 也做自动优化，但偏重模型架构搜索和超参调优，不是 Agent 级别的自我迭代。SIA 的独特之处在于它同时改代码和权重，不是只改 prompt。

一句话：如果你手头有 benchmark 任务想刷榜，或者想让某个 AI 系统持续自我优化，SIA 值得一试。MIT 协议、论文开源、数据透明，没什么可犹豫的。

GitHub：https://github.com/hexo-ai/sia
论文：arXiv 2605.27276

标签：#SIA #自改进AI #Agent框架 #MIT开源 #MLEBench #LawBench #AI研究 #hexo-ai

关注我，每期分享一个帮你省事的强大工具 🛠️

SIA：MIT开源自改进AI框架，让任意模型自己迭代变强

是什么

凭什么说它有效

怎么用

架构设计说得过去

不是没有槽点

跟类似项目比

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

Evano Studio：免费开源本地 AI 智能体管理平台，零代码打造你的 AI 团队

Kitewright浏览器自动化MCP，比Playwright快4倍

OpenOcta 八爪鱼：桌面AI智能体，双击即用

OpenSquilla：开源省钱版 AI 智能体，同样预算更高智能

Langflow：151K⭐ 可视化 AI 工作流平台，拖拽搭 Agent

BrowserAct Skill Forge：把任意网站变成 AI Agent 的可复用技能，开源浏览器自动化框架

是什么

凭什么说它有效

怎么用

架构设计说得过去

不是没有槽点

跟类似项目比

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

Evano Studio：免费开源本地 AI 智能体管理平台，零代码打造你的 AI 团队

Kitewright浏览器自动化MCP，比Playwright快4倍

OpenOcta 八爪鱼：桌面AI智能体，双击即用

OpenSquilla：开源省钱版 AI 智能体，同样预算更高智能

Langflow：151K⭐ 可视化 AI 工作流平台，拖拽搭 Agent

BrowserAct Skill Forge：把任意网站变成 AI Agent 的可复用技能，开源浏览器自动化框架

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）