05 · 发现与模拟环境 Benchmark¶
"给 agent 一个世界,看它能不能像科学家一样探索"。与 labbench2 / bixbench 的"给题 + 给数据" 形态不同,这类 benchmark 提供交互式环境,对于 long-horizon RL 有独特价值。
1. ScienceWorld —— "Agent 比小学生聪明吗?"¶
- 机构: Allen Institute for AI (AI2)
- 发布: 2022(arXiv 2203.07540)
- 特点:
- 文本交互环境,10 个相互连通地点
- 每地最多 200 种对象(仪器、容器、植物、电气设备)
- 25 个高层命令
- 每步最多 200,000 合法 action-object 组合
- 任务: 小学科学课程级别
- SOTA(2025 初): 前沿模型 ~80%
- links:
- paper: https://arxiv.org/abs/2203.07540
- 官网: https://sciworld.apps.allenai.org/
- repo: https://github.com/allenai/ScienceWorld
- 定位: 老基准,现在大多作 long-horizon agent 研究的"入门关"
2. DiscoveryWorld —— 真正的"科学发现" agent 环境¶
- 机构: AI2
- 发布: 2024-06(arXiv 2406.06769)
- 规模: 120 任务 / 8 主题 / 3 难度 / 多参数变体
- 主题: 放射同位素测年、火箭科学、蛋白组学、…
- 任务形态: 发现循环(discovery loop)——设计研究、做实验、解读模糊结果
- 特点:
- 文本 + 可选 2D 视觉
- 便宜可大规模运行
- SOTA: 最强 agent 在高难任务上 ~20%(PhD 人类 ~70%)
- links:
- paper: https://arxiv.org/abs/2406.06769
- 官网: https://allenai.github.io/discoveryworld/
- 对比:
- ScienceWorld 是 "能不能 重做 经典发现"(小学级)
- DiscoveryWorld 是 "能不能 真发现 新东西"(PhD 级)
3. LLM-SRBench —— 科学方程发现¶
- 特点: 符号回归 / 方程发现
- 规模: 239 题 / 4 学科
- links:
- paper: https://openreview.net/forum?id=SyQPiZJVWY
- 相当于: 让 agent 从数据推出物理/化学公式(符号回归 + 科学推理)
4. SciGym —— 系统生物学"干实验室"¶
- paper: https://arxiv.org/html/2507.02083
- 特点:
- 绕开真实湿实验成本
- 跑 SBML (Systems Biology Markup Language) 编码的生物系统作"仿真干实验室"
- agent 可以在低成本上反复做 in silico 实验
- 定位: 介于 BioProBench(文本协议)和 ExpVid(真实视频)之间,适合 RL
汇总¶
| Benchmark | 环境类型 | 规模 | SOTA | 适合 RL? |
|---|---|---|---|---|
| ScienceWorld | 文本交互 | 10 任务 | ~80% | 中(基础) |
| DiscoveryWorld | 文本+2D | 120/8/3 | 高难 ~20% | 高 |
| LLM-SRBench | 符号回归 | 239 | - | 中 |
| SciGym | SBML 仿真 | - | - | 高(bio 专用) |
选型建议¶
- 如果你想训 "long-horizon 科学 agent" 而不是单题 Q&A → DiscoveryWorld / SciGym 是目前最合适的仿真环境
- ScienceWorld 作为冷启动 curriculum 的第一关
- 与 labbench2/bixbench 互补:labbench2/bixbench 给的是"一题一奖励",这里给的是"长链交互"。两者叠起来训练可以覆盖从短 Q&A 到长 horizon 的整个谱。