AI4Science Benchmarks 调研(截至 2026-04)¶
对标本仓库的 labbench2 与 bixbench,本调研收录截至 2026-04 公开可获取、且有 OpenAI / Anthropic / Google 等前沿模型公开评测分数的 AI4Science benchmark。范围优先放在生物 + 化学(与 labbench2/bixbench 同构),并兼顾医学、材料、科学通用推理、agentic ML 研究这几个邻接方向。
目录¶
| 文件 | 内容 |
|---|---|
| 01_biology_wetlab.md | 生物与湿实验:LAB-Bench, BixBench, CompBioBench, BioML-bench, Biomni, BioProBench, ExpVid, PaperQA2/Aviary |
| 02_science_qa_reasoning.md | 科学 Q&A 与推理:GPQA, HLE, SuperGPQA, CURIE, FrontierMath |
| 03_agent_coding.md | 科研代码 / Agent:SciCode, ScienceAgentBench, DataSciBench, MLE-Bench, PaperBench, RE-Bench |
| 04_medical_chem_materials.md | 医学 + 化学 + 材料:MedQA, HealthBench, MedAgentBench, AgentClinic, ChemBench, MaCBench, MatBench, LLM4Mat-Bench, ProteinGym |
| 05_discovery_simulation.md | 发现 / 模拟环境:ScienceWorld, DiscoveryWorld, LLM-SRBench, SciGym |
| sources.md | 全部 URL 索引 |
一图看懂(按与 labbench2/bixbench 的相似度排序)¶
与 labbench2 最同构(多 tag / 文件注入 / 0-1 奖励 / 含湿实验)¶
- LAB-Bench (FutureHouse,2024.07)—— labbench2 的前代作品,同一组人做的,2457 题覆盖 LitQA、DbQA、SuppQA、FigQA、TableQA、ProtocolQA、SeqQA、Cloning 共 8 类;labbench2 基本可以看作它的"难度升级 + 模式扩展 (file/inject/retrieve)"版。
- BioProBench —— 协议排错,对标 labbench2 的
protocolqa2。
与 bixbench 最同构(Jupyter + 真实数据 + 开放式)¶
- CompBioBench (2026.04) —— 100 个计算生物任务,bare-env 起步,Codex CLI / Claude Code 评测最高 83% / 81%。最直接可比。
- BioML-bench (2025.09) —— 端到端生物 ML pipeline,4 domain(蛋白工程 / 单细胞 / 生物成像 / 药物发现),自动 AUROC/Spearman 打分。
- ScienceAgentBench (ICLR'25) —— 102 个数据驱动科研任务,4 学科,最终产物统一为 Python 文件 + 程序化评测。
- Biomni (Stanford,2025.05) —— 更像"agent 框架 + 内置多 benchmark" (含 LAB-Bench / HLE bio),可作为 baseline agent。
纯 Q&A 饱和型(适合做 RL 初期冷启动的密集 0-1 信号)¶
- GPQA-Diamond:198 题 PhD 级物理/化学/生物 MCQ,2026.04 SOTA 已 94.3%(Gemini 3.1 Pro),基本饱和。
- SuperGPQA:ByteDance 做的 GPQA 扩展,285 学科、26,529 题、平均 9.67 个选项,更难、更宽。
- HLE (Humanity's Last Exam):2,500 跨学科(其中 bio/chem/phys 共 27%),SOTA 44.7%,2026 年最难的"通用 benchmark"。
- FrontierMath:Epoch AI + 60 位数学家,350 题,SOTA 仍<50%,形式化验证。
研究工程 agent(OpenAI / METR 亲自做的)¶
- MLE-Bench (OpenAI,2024.10):75 个 Kaggle ML 比赛,o1-preview + AIDE 拿到 16.9% 铜牌率(pass@8 到 34.1%)。
- PaperBench (OpenAI,2025.04):复现 20 篇 ICML 2024 Spotlight/Oral,8316 子任务 rubric,Claude 3.5 Sonnet 21%。
- RE-Bench (METR,2024.11):7 个 8h ML R&D 环境,前沿 agent 在 2h 预算下 4× 人类,8h+ 反超。
医学¶
- MedQA:USMLE MCQ,o4-mini-high 95.2%,已饱和。
- HealthBench (OpenAI,2025.05):262 位医师参与 rubric,5000 多轮对话,o3 只有 60%,Hard 32%。
- MedAgentBench:300 EHR 任务,Claude 3.5 Sonnet v2 69.67%。
- AgentClinic:多模态模拟临床,Claude 3.5 家族领先。
化学 / 材料 / 蛋白¶
- ChemBench (LamaLab):化学综合,含 MCQ + 数值 + 多模态,领先者化学家。
- MaCBench:化学材料多模态。
- MatBench Discovery:材料稳定性 ML 预筛(非 LLM,Universal IP 领先)。
- LLM4Mat-Bench:1.9M 晶体结构,45 性质,评估 LLM 对 CIF / 文本描述 / 化学式的预测。
- ProteinGym:DMS 蛋白 fitness,217 assay / 2.7M 变异,结构感知模型(ESM-IF1)领先。
长文档 / 多模态科学¶
- CURIE (Google DeepMind,ICLR'25):10 任务 6 学科,15k 词长输入,最佳 32%(Gemini Flash 2.0 / Claude-3)。
- ExpVid (ICLR'26):湿实验视频,20 个 MLM,短步 OK / 长程差。
模拟科学环境¶
- ScienceWorld (AI2,2022):文本世界 10 地点,小学课程;2025 年前沿模型 ~80%。
- DiscoveryWorld (AI2,2024):120 任务 8 主题 3 难度,高难 ~20%(PhD ~70%)。
- LLM-SRBench:符号回归 / 方程发现,239 题 4 学科。
主表(按任务类型)¶
| Benchmark | 领域 | 规模 | 输入形态 | 评分方式 | SOTA 模型(2026.04) | SOTA 分数 | 人类基线 |
|---|---|---|---|---|---|---|---|
| LAB-Bench | 生物研究 | 2,457 | 文+图+表+PDF+序列+克隆 | MCQ + rule | Claude 3.5 Sonnet | 多指标(部分超人) | PhD |
| BixBench | 计算生物 | 205 | notebook + 数据 | MCQ + open-ended | Claude Opus 4.5 @tools | ~17% 开放 | ~20% |
| CompBioBench | 计算生物 | 100 | bare env | program verify | Codex CLI (GPT-5.4) | 83%(难 59%) | - |
| BioML-bench | 生物 ML | 4 domain | 数据集 | AUROC/Spearman | agent 均低于人类 | - | human bl |
| Biomni | bio agent | 多 benchmark | 工具+数据库 | 聚合 | 自身 | LAB-Bench DbQA 74.4% | - |
| BioProBench | 湿实验协议 | 550k | 协议文本 | 5 子任务 | 主流 LLM | ~70% PQA | - |
| ExpVid | 湿实验视频 | - | 视频 | 3 层 | 20 MLM | 短远>长 | - |
| ProteinGym | 蛋白 fitness | 2.7M 变异 | 序列 | Spearman | ESM-IF1 / 多模态 | ρ=0.624 | - |
| GPQA-Diamond | PhD 物/化/生 | 198 | MCQ | exact | Gemini 3.1 Pro Preview | 94.3% | PhD ~70% |
| HLE | 全学科 | 2,500 | 多模态 | 判题 | Gemini 3.1 Pro | 44.7% | - |
| SuperGPQA | 285 学科 | 26,529 | MCQ(9.67 选项) | exact | - | - | - |
| CURIE | 长上下文科学 | 580 | 长文本 | 多指标 | Gemini Flash 2.0 / Claude-3 | 最佳 32% | - |
| FrontierMath | 研究数学 | 350 | 开放 | 形式验证 | 顶模型 | <50% Tier1-3 | IMO 金牌+Fields |
| SciCode | 科研编码 | 338 sub | Python | unit test | GPT-5.4 | 56.6% | - |
| ScienceAgentBench | 数据驱动 | 102 | 数据 | Python + metric | o1-preview + self-debug | 42.2% | - |
| DataSciBench | 数据科学 | 222 | prompt | TFC 框架 | Deepseek-Coder-33B | - | - |
| MLE-Bench | Kaggle ML | 75 | 比赛 | Kaggle 指标 | o1-preview+AIDE | 16.9%(pass@8 34.1%) | Kaggle 奖牌线 |
| PaperBench | 复现 ICML | 20/8316 | ICML 论文 | rubric LLM judge | Claude 3.5 Sonnet New | 21.0% | PhD > |
| RE-Bench | AI R&D | 7 env | ML 任务 | 成绩 | frontier agent | 2h 4× 人类 | 61 人 / 71 次 |
| MedQA | USMLE | ~12k | MCQ | exact | o4-mini-high | 95.2% | medical student |
| HealthBench | 医疗对话 | 5,000 | 多轮 | rubric(48,562) | o3 | 60% / Hard 32% | 262 位医师 |
| MedAgentBench | EHR agent | 300 | FHIR API | task success | Claude 3.5 Sonnet v2 | 69.67% | - |
| AgentClinic | 模拟临床 | 9 科 7 语 | 对话+图 | 诊断准确率 | Claude 3.5 | 最高 | USMLE |
| ChemBench | 化学综合 | - | MCQ + 数值 | 多指标 | GPT-4 / Claude 家族 | - | 化学家 |
| MaCBench | 化学材料多模态 | - | 图+文 | - | - | - | - |
| MatBench Discovery | 材料稳定性 | - | 晶体 | ML metric | Universal IP(非 LLM) | - | DFT |
| LLM4Mat-Bench | 材料预测 | 1.9M 晶体 / 45 性质 | CIF/文本/组分 | MAE/R² | - | - | - |
| ScienceWorld | 小学科学 | 10 任务 | 文本世界 | 世界状态 | frontier | 低 80% | - |
| DiscoveryWorld | 科研发现 | 120/8/3 | 文本世界 | 任务成功 | 未列 | 高难 ~20% | PhD ~70% |
| LLM-SRBench | 方程发现 | 239 | 数据 | 符号匹配 | - | - | - |
选型建议(面向 Agentic RL 训练)¶
冷启动阶段(要密集、快、便宜的 0-1 信号)¶
- GPQA-Diamond + MedQA + SciCode (sub):MCQ / 可执行测试,程序化验证,rollout 短。
- 缺点:已饱和、信号上限低。
主训练阶段(想出现 agent 行为的显式信号)¶
- labbench2 + bixbench (本仓库)— 已解析完毕,最契合。
- CompBioBench + ScienceAgentBench + BioML-bench — 与 bixbench 同构,且都有 Kaggle/开源数据,可自托管。
- MLE-Bench(OpenAI 开源)— 纯 ML 工程,可做通用 agent 能力对齐。
评估阶段(做对外可信的榜)¶
- GPQA-Diamond + HLE + MLE-Bench + SciCode — 这几个是目前技术报告最常引用的 AI4Science 榜单。
- LAB-Bench 如果你的 agent 专攻生物。
- PaperBench 如果你要展示 AI R&D 能力(昂贵,每次 rollout 需要跑完整 ML 实验)。
避坑¶
- MedQA、GPQA 等 MCQ 类已经饱和,单独用作 RL 奖励会很快 reward hacking。
- PaperBench 每 rollout 成本极高(rubric 8316 项 + LLM judge),不适合大规模 RL;但可以做 eval。
- ChemBench / MaCBench / MatBench 目前公开的前沿模型分数较少,若训 chemistry agent 要预期"评测基础设施薄"。
关键规律(调研结论)¶
-
2024 的 MCQ 榜单(GPQA、MedQA、MMLU-Pro)已经饱和,SOTA 超过 90%。2025-26 新 benchmark 几乎全部走 agentic + code execution + 程序化/rubric 评分 路线(BixBench、CompBioBench、MLE-Bench、PaperBench、ScienceAgentBench、BioML-bench),labbench2 的设计恰好踩在这条主趋势线上。
-
生物(尤其 wet-lab / 克隆)是 2026 年前沿模型最明显的短板。LAB-Bench 的 Cloning、labbench2 的 cloning/protocolqa2、Biomni 在 HLE bio 只有 17.3%、ExpVid 在长程理解上的显著退化,都指向同一结论:具身性湿实验 + 程序化协议 + 多步骤反事实推理 是 GPT-5/Opus 4.6 时代的真正前沿。
-
"程序化可验证"是新基准的生存基本功。FrontierMath、SciCode、MLE-Bench、PaperBench、ScienceAgentBench、CompBioBench 全部使用 代码跑通 / 数值对齐 / Kaggle 指标 / rubric LLM judge,而不是依赖"GPT-4 当裁判"的弱形式。labbench2 的 seqqa2/cloning reward 路径正好是这类。
-
Anthropic / OpenAI / Google 亲自发布的 AI4Science benchmark:
- OpenAI:MLE-Bench、PaperBench、HealthBench(外加 PaperQA2/Aviary 里集成 o1)。
- Google DeepMind:CURIE(ICLR'25)、ScienceAgentBench 大量引用 Gemini 分数。
-
Anthropic:自身不发布 benchmark,但在 Opus 4.5 / 4.6 / Mythos 的 system card 中广引 LAB-Bench、MedAgentBench、ChemBench、ProtocolQA2、GPQA、HLE。
-
FutureHouse 一条线值得整体研读:LAB-Bench → PaperQA2 → Aviary → BixBench → labbench2。这家机构基本定义了"AI for Biology benchmark"的形态——本仓库两个 benchmark 都源自他们。
调研时间 & 方法¶
- 时间:2026-04-20
- 方法:WebSearch + 英文关键词组合(
AI4Science benchmark,LAB-Bench,BixBench,CompBioBench,CURIE,SciCode,MLE-Bench,PaperBench,GPQA,HLE,ChemBench,MatBench,ProteinGym,MedAgentBench等) - 过滤:仅保留 (a) 有公开 paper/repo,(b) 至少有一次 frontier 模型公开评测分数,© 数据公开可复用的 benchmark。
- 全部一手链接见 sources.md。