AI4Science Benchmarks 调研(截至 2026-04)¶

对标本仓库的 labbench2 与 bixbench,本调研收录截至 2026-04 公开可获取、且有 OpenAI / Anthropic / Google 等前沿模型公开评测分数的 AI4Science benchmark。范围优先放在生物 + 化学(与 labbench2/bixbench 同构),并兼顾医学、材料、科学通用推理、agentic ML 研究这几个邻接方向。

目录¶

文件	内容
01_biology_wetlab.md	生物与湿实验:LAB-Bench, BixBench, CompBioBench, BioML-bench, Biomni, BioProBench, ExpVid, PaperQA2/Aviary
02_science_qa_reasoning.md	科学 Q&A 与推理:GPQA, HLE, SuperGPQA, CURIE, FrontierMath
03_agent_coding.md	科研代码 / Agent:SciCode, ScienceAgentBench, DataSciBench, MLE-Bench, PaperBench, RE-Bench
04_medical_chem_materials.md	医学 + 化学 + 材料:MedQA, HealthBench, MedAgentBench, AgentClinic, ChemBench, MaCBench, MatBench, LLM4Mat-Bench, ProteinGym
05_discovery_simulation.md	发现 / 模拟环境:ScienceWorld, DiscoveryWorld, LLM-SRBench, SciGym
sources.md	全部 URL 索引

一图看懂(按与 labbench2/bixbench 的相似度排序)¶

与 labbench2 最同构(多 tag / 文件注入 / 0-1 奖励 / 含湿实验)¶

LAB-Bench (FutureHouse,2024.07)—— labbench2 的前代作品,同一组人做的,2457 题覆盖 LitQA、DbQA、SuppQA、FigQA、TableQA、ProtocolQA、SeqQA、Cloning 共 8 类;labbench2 基本可以看作它的"难度升级 + 模式扩展 (file/inject/retrieve)"版。
BioProBench —— 协议排错,对标 labbench2 的 protocolqa2。

与 bixbench 最同构(Jupyter + 真实数据 + 开放式)¶

CompBioBench (2026.04) —— 100 个计算生物任务,bare-env 起步,Codex CLI / Claude Code 评测最高 83% / 81%。最直接可比。
BioML-bench (2025.09) —— 端到端生物 ML pipeline,4 domain(蛋白工程 / 单细胞 / 生物成像 / 药物发现),自动 AUROC/Spearman 打分。
ScienceAgentBench (ICLR'25) —— 102 个数据驱动科研任务,4 学科,最终产物统一为 Python 文件 + 程序化评测。
Biomni (Stanford,2025.05) —— 更像"agent 框架 + 内置多 benchmark" (含 LAB-Bench / HLE bio),可作为 baseline agent。

纯 Q&A 饱和型(适合做 RL 初期冷启动的密集 0-1 信号)¶

GPQA-Diamond:198 题 PhD 级物理/化学/生物 MCQ,2026.04 SOTA 已 94.3%(Gemini 3.1 Pro),基本饱和。
SuperGPQA:ByteDance 做的 GPQA 扩展,285 学科、26,529 题、平均 9.67 个选项,更难、更宽。
HLE (Humanity's Last Exam):2,500 跨学科(其中 bio/chem/phys 共 27%),SOTA 44.7%,2026 年最难的"通用 benchmark"。
FrontierMath:Epoch AI + 60 位数学家,350 题,SOTA 仍<50%,形式化验证。

研究工程 agent(OpenAI / METR 亲自做的)¶

MLE-Bench (OpenAI,2024.10):75 个 Kaggle ML 比赛,o1-preview + AIDE 拿到 16.9% 铜牌率(pass@8 到 34.1%)。
PaperBench (OpenAI,2025.04):复现 20 篇 ICML 2024 Spotlight/Oral,8316 子任务 rubric,Claude 3.5 Sonnet 21%。
RE-Bench (METR,2024.11):7 个 8h ML R&D 环境,前沿 agent 在 2h 预算下 4× 人类,8h+ 反超。

医学¶

MedQA:USMLE MCQ,o4-mini-high 95.2%,已饱和。
HealthBench (OpenAI,2025.05):262 位医师参与 rubric,5000 多轮对话,o3 只有 60%,Hard 32%。
MedAgentBench:300 EHR 任务,Claude 3.5 Sonnet v2 69.67%。
AgentClinic:多模态模拟临床,Claude 3.5 家族领先。

化学 / 材料 / 蛋白¶

ChemBench (LamaLab):化学综合,含 MCQ + 数值 + 多模态,领先者化学家。
MaCBench:化学材料多模态。
MatBench Discovery:材料稳定性 ML 预筛(非 LLM,Universal IP 领先)。
LLM4Mat-Bench:1.9M 晶体结构,45 性质,评估 LLM 对 CIF / 文本描述 / 化学式的预测。
ProteinGym:DMS 蛋白 fitness,217 assay / 2.7M 变异,结构感知模型(ESM-IF1)领先。

长文档 / 多模态科学¶

CURIE (Google DeepMind,ICLR'25):10 任务 6 学科,15k 词长输入,最佳 32%(Gemini Flash 2.0 / Claude-3)。
ExpVid (ICLR'26):湿实验视频,20 个 MLM,短步 OK / 长程差。

模拟科学环境¶

ScienceWorld (AI2,2022):文本世界 10 地点,小学课程;2025 年前沿模型 ~80%。
DiscoveryWorld (AI2,2024):120 任务 8 主题 3 难度,高难 ~20%(PhD ~70%)。
LLM-SRBench:符号回归 / 方程发现,239 题 4 学科。

主表(按任务类型)¶

Benchmark	领域	规模	输入形态	评分方式	SOTA 模型(2026.04)	SOTA 分数	人类基线
LAB-Bench	生物研究	2,457	文+图+表+PDF+序列+克隆	MCQ + rule	Claude 3.5 Sonnet	多指标(部分超人)	PhD
BixBench	计算生物	205	notebook + 数据	MCQ + open-ended	Claude Opus 4.5 @tools	~17% 开放	~20%
CompBioBench	计算生物	100	bare env	program verify	Codex CLI (GPT-5.4)	83%(难 59%)	-
BioML-bench	生物 ML	4 domain	数据集	AUROC/Spearman	agent 均低于人类	-	human bl
Biomni	bio agent	多 benchmark	工具+数据库	聚合	自身	LAB-Bench DbQA 74.4%	-
BioProBench	湿实验协议	550k	协议文本	5 子任务	主流 LLM	~70% PQA	-
ExpVid	湿实验视频	-	视频	3 层	20 MLM	短远>长	-
ProteinGym	蛋白 fitness	2.7M 变异	序列	Spearman	ESM-IF1 / 多模态	ρ=0.624	-
GPQA-Diamond	PhD 物/化/生	198	MCQ	exact	Gemini 3.1 Pro Preview	94.3%	PhD ~70%
HLE	全学科	2,500	多模态	判题	Gemini 3.1 Pro	44.7%	-
SuperGPQA	285 学科	26,529	MCQ(9.67 选项)	exact	-	-	-
CURIE	长上下文科学	580	长文本	多指标	Gemini Flash 2.0 / Claude-3	最佳 32%	-
FrontierMath	研究数学	350	开放	形式验证	顶模型	<50% Tier1-3	IMO 金牌+Fields
SciCode	科研编码	338 sub	Python	unit test	GPT-5.4	56.6%	-
ScienceAgentBench	数据驱动	102	数据	Python + metric	o1-preview + self-debug	42.2%	-
DataSciBench	数据科学	222	prompt	TFC 框架	Deepseek-Coder-33B	-	-
MLE-Bench	Kaggle ML	75	比赛	Kaggle 指标	o1-preview+AIDE	16.9%(pass@8 34.1%)	Kaggle 奖牌线
PaperBench	复现 ICML	20/8316	ICML 论文	rubric LLM judge	Claude 3.5 Sonnet New	21.0%	PhD >
RE-Bench	AI R&D	7 env	ML 任务	成绩	frontier agent	2h 4× 人类	61 人 / 71 次
MedQA	USMLE	~12k	MCQ	exact	o4-mini-high	95.2%	medical student
HealthBench	医疗对话	5,000	多轮	rubric(48,562)	o3	60% / Hard 32%	262 位医师
MedAgentBench	EHR agent	300	FHIR API	task success	Claude 3.5 Sonnet v2	69.67%	-
AgentClinic	模拟临床	9 科 7 语	对话+图	诊断准确率	Claude 3.5	最高	USMLE
ChemBench	化学综合	-	MCQ + 数值	多指标	GPT-4 / Claude 家族	-	化学家
MaCBench	化学材料多模态	-	图+文	-	-	-	-
MatBench Discovery	材料稳定性	-	晶体	ML metric	Universal IP(非 LLM)	-	DFT
LLM4Mat-Bench	材料预测	1.9M 晶体 / 45 性质	CIF/文本/组分	MAE/R²	-	-	-
ScienceWorld	小学科学	10 任务	文本世界	世界状态	frontier	低 80%	-
DiscoveryWorld	科研发现	120/8/3	文本世界	任务成功	未列	高难 ~20%	PhD ~70%
LLM-SRBench	方程发现	239	数据	符号匹配	-	-	-

选型建议(面向 Agentic RL 训练)¶

冷启动阶段(要密集、快、便宜的 0-1 信号)¶

GPQA-Diamond + MedQA + SciCode (sub):MCQ / 可执行测试,程序化验证,rollout 短。
缺点:已饱和、信号上限低。

主训练阶段(想出现 agent 行为的显式信号)¶

labbench2 + bixbench (本仓库)— 已解析完毕,最契合。
CompBioBench + ScienceAgentBench + BioML-bench — 与 bixbench 同构,且都有 Kaggle/开源数据,可自托管。
MLE-Bench(OpenAI 开源)— 纯 ML 工程,可做通用 agent 能力对齐。

评估阶段(做对外可信的榜)¶

GPQA-Diamond + HLE + MLE-Bench + SciCode — 这几个是目前技术报告最常引用的 AI4Science 榜单。
LAB-Bench 如果你的 agent 专攻生物。
PaperBench 如果你要展示 AI R&D 能力(昂贵,每次 rollout 需要跑完整 ML 实验)。

避坑¶

MedQA、GPQA 等 MCQ 类已经饱和,单独用作 RL 奖励会很快 reward hacking。
PaperBench 每 rollout 成本极高(rubric 8316 项 + LLM judge),不适合大规模 RL;但可以做 eval。
ChemBench / MaCBench / MatBench 目前公开的前沿模型分数较少,若训 chemistry agent 要预期"评测基础设施薄"。

关键规律(调研结论)¶

2024 的 MCQ 榜单(GPQA、MedQA、MMLU-Pro)已经饱和,SOTA 超过 90%。2025-26 新 benchmark 几乎全部走 agentic + code execution + 程序化/rubric 评分 路线(BixBench、CompBioBench、MLE-Bench、PaperBench、ScienceAgentBench、BioML-bench),labbench2 的设计恰好踩在这条主趋势线上。
生物(尤其 wet-lab / 克隆)是 2026 年前沿模型最明显的短板。LAB-Bench 的 Cloning、labbench2 的 cloning/protocolqa2、Biomni 在 HLE bio 只有 17.3%、ExpVid 在长程理解上的显著退化,都指向同一结论:具身性湿实验 + 程序化协议 + 多步骤反事实推理 是 GPT-5/Opus 4.6 时代的真正前沿。
"程序化可验证"是新基准的生存基本功。FrontierMath、SciCode、MLE-Bench、PaperBench、ScienceAgentBench、CompBioBench 全部使用 代码跑通 / 数值对齐 / Kaggle 指标 / rubric LLM judge,而不是依赖"GPT-4 当裁判"的弱形式。labbench2 的 seqqa2/cloning reward 路径正好是这类。
Anthropic / OpenAI / Google 亲自发布的 AI4Science benchmark:
OpenAI:MLE-Bench、PaperBench、HealthBench(外加 PaperQA2/Aviary 里集成 o1)。
Google DeepMind:CURIE(ICLR'25)、ScienceAgentBench 大量引用 Gemini 分数。
Anthropic:自身不发布 benchmark,但在 Opus 4.5 / 4.6 / Mythos 的 system card 中广引 LAB-Bench、MedAgentBench、ChemBench、ProtocolQA2、GPQA、HLE。
FutureHouse 一条线值得整体研读:LAB-Bench → PaperQA2 → Aviary → BixBench → labbench2。这家机构基本定义了"AI for Biology benchmark"的形态——本仓库两个 benchmark 都源自他们。

调研时间 & 方法¶

时间:2026-04-20
方法:WebSearch + 英文关键词组合(AI4Science benchmark, LAB-Bench, BixBench, CompBioBench, CURIE, SciCode, MLE-Bench, PaperBench, GPQA, HLE, ChemBench, MatBench, ProteinGym, MedAgentBench 等)
全部一手链接见 sources.md。