跳转至

DearJarvis · 研究报告

05 · 发现与模拟环境 Benchmark

05 · 发现与模拟环境 Benchmark¶

"给 agent 一个世界,看它能不能像科学家一样探索"。与 labbench2 / bixbench 的"给题 + 给数据" 形态不同,这类 benchmark 提供交互式环境,对于 long-horizon RL 有独特价值。

1. ScienceWorld —— "Agent 比小学生聪明吗?"¶

机构: Allen Institute for AI (AI2)
发布: 2022(arXiv 2203.07540)
特点:
文本交互环境,10 个相互连通地点
每地最多 200 种对象(仪器、容器、植物、电气设备)
25 个高层命令
每步最多 200,000 合法 action-object 组合
任务: 小学科学课程级别
SOTA(2025 初): 前沿模型 ~80%
links:
paper: https://arxiv.org/abs/2203.07540
官网: https://sciworld.apps.allenai.org/
repo: https://github.com/allenai/ScienceWorld
定位: 老基准,现在大多作 long-horizon agent 研究的"入门关"

2. DiscoveryWorld —— 真正的"科学发现" agent 环境¶

机构: AI2
发布: 2024-06(arXiv 2406.06769)
规模: 120 任务 / 8 主题 / 3 难度 / 多参数变体
主题: 放射同位素测年、火箭科学、蛋白组学、…
任务形态: 发现循环(discovery loop)——设计研究、做实验、解读模糊结果
特点:
文本 + 可选 2D 视觉
便宜可大规模运行
SOTA: 最强 agent 在高难任务上 ~20%(PhD 人类 ~70%)
links:
paper: https://arxiv.org/abs/2406.06769
官网: https://allenai.github.io/discoveryworld/
对比:
ScienceWorld 是 "能不能重做经典发现"(小学级)
DiscoveryWorld 是 "能不能 真发现 新东西"(PhD 级)

3. LLM-SRBench —— 科学方程发现¶

特点: 符号回归 / 方程发现
规模: 239 题 / 4 学科
links:
paper: https://openreview.net/forum?id=SyQPiZJVWY
相当于: 让 agent 从数据推出物理/化学公式(符号回归 + 科学推理)

4. SciGym —— 系统生物学"干实验室"¶

paper: https://arxiv.org/html/2507.02083
特点:
绕开真实湿实验成本
跑 SBML (Systems Biology Markup Language) 编码的生物系统作"仿真干实验室"
agent 可以在低成本上反复做 in silico 实验
定位: 介于 BioProBench(文本协议)和 ExpVid(真实视频)之间,适合 RL

汇总¶

Benchmark	环境类型	规模	SOTA	适合 RL?
ScienceWorld	文本交互	10 任务	~80%	中(基础)
DiscoveryWorld	文本+2D	120/8/3	高难 ~20%	高
LLM-SRBench	符号回归	239	-	中
SciGym	SBML 仿真	-	-	高(bio 专用)

选型建议¶

如果你想训 "long-horizon 科学 agent" 而不是单题 Q&A → DiscoveryWorld / SciGym 是目前最合适的仿真环境
ScienceWorld 作为冷启动 curriculum 的第一关
与 labbench2/bixbench 互补:labbench2/bixbench 给的是"一题一奖励",这里给的是"长链交互"。两者叠起来训练可以覆盖从短 Q&A 到长 horizon 的整个谱。