跳转至

05 · 发现与模拟环境 Benchmark

"给 agent 一个世界,看它能不能像科学家一样探索"。与 labbench2 / bixbench 的"给题 + 给数据" 形态不同,这类 benchmark 提供交互式环境,对于 long-horizon RL 有独特价值。


1. ScienceWorld —— "Agent 比小学生聪明吗?"

  • 机构: Allen Institute for AI (AI2)
  • 发布: 2022(arXiv 2203.07540)
  • 特点:
  • 文本交互环境,10 个相互连通地点
  • 每地最多 200 种对象(仪器、容器、植物、电气设备)
  • 25 个高层命令
  • 每步最多 200,000 合法 action-object 组合
  • 任务: 小学科学课程级别
  • SOTA(2025 初): 前沿模型 ~80%
  • links:
  • paper: https://arxiv.org/abs/2203.07540
  • 官网: https://sciworld.apps.allenai.org/
  • repo: https://github.com/allenai/ScienceWorld
  • 定位: 老基准,现在大多作 long-horizon agent 研究的"入门关"

2. DiscoveryWorld —— 真正的"科学发现" agent 环境

  • 机构: AI2
  • 发布: 2024-06(arXiv 2406.06769)
  • 规模: 120 任务 / 8 主题 / 3 难度 / 多参数变体
  • 主题: 放射同位素测年、火箭科学、蛋白组学、…
  • 任务形态: 发现循环(discovery loop)——设计研究、做实验、解读模糊结果
  • 特点:
  • 文本 + 可选 2D 视觉
  • 便宜可大规模运行
  • SOTA: 最强 agent 在高难任务上 ~20%(PhD 人类 ~70%)
  • links:
  • paper: https://arxiv.org/abs/2406.06769
  • 官网: https://allenai.github.io/discoveryworld/
  • 对比:
  • ScienceWorld 是 "能不能 重做 经典发现"(小学级)
  • DiscoveryWorld 是 "能不能 真发现 新东西"(PhD 级)

3. LLM-SRBench —— 科学方程发现

  • 特点: 符号回归 / 方程发现
  • 规模: 239 题 / 4 学科
  • links:
  • paper: https://openreview.net/forum?id=SyQPiZJVWY
  • 相当于: 让 agent 从数据推出物理/化学公式(符号回归 + 科学推理)

4. SciGym —— 系统生物学"干实验室"

  • paper: https://arxiv.org/html/2507.02083
  • 特点:
  • 绕开真实湿实验成本
  • SBML (Systems Biology Markup Language) 编码的生物系统作"仿真干实验室"
  • agent 可以在低成本上反复做 in silico 实验
  • 定位: 介于 BioProBench(文本协议)和 ExpVid(真实视频)之间,适合 RL

汇总

Benchmark 环境类型 规模 SOTA 适合 RL?
ScienceWorld 文本交互 10 任务 ~80% 中(基础)
DiscoveryWorld 文本+2D 120/8/3 高难 ~20%
LLM-SRBench 符号回归 239 -
SciGym SBML 仿真 - - (bio 专用)

选型建议

  • 如果你想训 "long-horizon 科学 agent" 而不是单题 Q&A → DiscoveryWorld / SciGym 是目前最合适的仿真环境
  • ScienceWorld 作为冷启动 curriculum 的第一关
  • 与 labbench2/bixbench 互补:labbench2/bixbench 给的是"一题一奖励",这里给的是"长链交互"。两者叠起来训练可以覆盖从短 Q&A 到长 horizon 的整个谱