跳转至

AI4Science Benchmarks 调研(截至 2026-04)

对标本仓库的 labbench2bixbench,本调研收录截至 2026-04 公开可获取、且有 OpenAI / Anthropic / Google 等前沿模型公开评测分数的 AI4Science benchmark。范围优先放在生物 + 化学(与 labbench2/bixbench 同构),并兼顾医学、材料、科学通用推理、agentic ML 研究这几个邻接方向。

目录

文件 内容
01_biology_wetlab.md 生物与湿实验:LAB-Bench, BixBench, CompBioBench, BioML-bench, Biomni, BioProBench, ExpVid, PaperQA2/Aviary
02_science_qa_reasoning.md 科学 Q&A 与推理:GPQA, HLE, SuperGPQA, CURIE, FrontierMath
03_agent_coding.md 科研代码 / Agent:SciCode, ScienceAgentBench, DataSciBench, MLE-Bench, PaperBench, RE-Bench
04_medical_chem_materials.md 医学 + 化学 + 材料:MedQA, HealthBench, MedAgentBench, AgentClinic, ChemBench, MaCBench, MatBench, LLM4Mat-Bench, ProteinGym
05_discovery_simulation.md 发现 / 模拟环境:ScienceWorld, DiscoveryWorld, LLM-SRBench, SciGym
sources.md 全部 URL 索引

一图看懂(按与 labbench2/bixbench 的相似度排序)

与 labbench2 最同构(多 tag / 文件注入 / 0-1 奖励 / 含湿实验)

  • LAB-Bench (FutureHouse,2024.07)—— labbench2 的前代作品,同一组人做的,2457 题覆盖 LitQA、DbQA、SuppQA、FigQA、TableQA、ProtocolQA、SeqQA、Cloning 共 8 类;labbench2 基本可以看作它的"难度升级 + 模式扩展 (file/inject/retrieve)"版。
  • BioProBench —— 协议排错,对标 labbench2 的 protocolqa2

与 bixbench 最同构(Jupyter + 真实数据 + 开放式)

  • CompBioBench (2026.04) —— 100 个计算生物任务,bare-env 起步,Codex CLI / Claude Code 评测最高 83% / 81%。最直接可比
  • BioML-bench (2025.09) —— 端到端生物 ML pipeline,4 domain(蛋白工程 / 单细胞 / 生物成像 / 药物发现),自动 AUROC/Spearman 打分。
  • ScienceAgentBench (ICLR'25) —— 102 个数据驱动科研任务,4 学科,最终产物统一为 Python 文件 + 程序化评测。
  • Biomni (Stanford,2025.05) —— 更像"agent 框架 + 内置多 benchmark" (含 LAB-Bench / HLE bio),可作为 baseline agent。

纯 Q&A 饱和型(适合做 RL 初期冷启动的密集 0-1 信号)

  • GPQA-Diamond:198 题 PhD 级物理/化学/生物 MCQ,2026.04 SOTA 已 94.3%(Gemini 3.1 Pro),基本饱和
  • SuperGPQA:ByteDance 做的 GPQA 扩展,285 学科、26,529 题、平均 9.67 个选项,更难、更宽。
  • HLE (Humanity's Last Exam):2,500 跨学科(其中 bio/chem/phys 共 27%),SOTA 44.7%,2026 年最难的"通用 benchmark"
  • FrontierMath:Epoch AI + 60 位数学家,350 题,SOTA 仍<50%,形式化验证。

研究工程 agent(OpenAI / METR 亲自做的)

  • MLE-Bench (OpenAI,2024.10):75 个 Kaggle ML 比赛,o1-preview + AIDE 拿到 16.9% 铜牌率(pass@8 到 34.1%)。
  • PaperBench (OpenAI,2025.04):复现 20 篇 ICML 2024 Spotlight/Oral,8316 子任务 rubric,Claude 3.5 Sonnet 21%。
  • RE-Bench (METR,2024.11):7 个 8h ML R&D 环境,前沿 agent 在 2h 预算下 4× 人类,8h+ 反超。

医学

  • MedQA:USMLE MCQ,o4-mini-high 95.2%,已饱和
  • HealthBench (OpenAI,2025.05):262 位医师参与 rubric,5000 多轮对话,o3 只有 60%,Hard 32%。
  • MedAgentBench:300 EHR 任务,Claude 3.5 Sonnet v2 69.67%。
  • AgentClinic:多模态模拟临床,Claude 3.5 家族领先。

化学 / 材料 / 蛋白

  • ChemBench (LamaLab):化学综合,含 MCQ + 数值 + 多模态,领先者化学家。
  • MaCBench:化学材料多模态。
  • MatBench Discovery:材料稳定性 ML 预筛(非 LLM,Universal IP 领先)。
  • LLM4Mat-Bench:1.9M 晶体结构,45 性质,评估 LLM 对 CIF / 文本描述 / 化学式的预测。
  • ProteinGym:DMS 蛋白 fitness,217 assay / 2.7M 变异,结构感知模型(ESM-IF1)领先。

长文档 / 多模态科学

  • CURIE (Google DeepMind,ICLR'25):10 任务 6 学科,15k 词长输入,最佳 32%(Gemini Flash 2.0 / Claude-3)。
  • ExpVid (ICLR'26):湿实验视频,20 个 MLM,短步 OK / 长程差。

模拟科学环境

  • ScienceWorld (AI2,2022):文本世界 10 地点,小学课程;2025 年前沿模型 ~80%。
  • DiscoveryWorld (AI2,2024):120 任务 8 主题 3 难度,高难 ~20%(PhD ~70%)。
  • LLM-SRBench:符号回归 / 方程发现,239 题 4 学科。

主表(按任务类型)

Benchmark 领域 规模 输入形态 评分方式 SOTA 模型(2026.04) SOTA 分数 人类基线
LAB-Bench 生物研究 2,457 文+图+表+PDF+序列+克隆 MCQ + rule Claude 3.5 Sonnet 多指标(部分超人) PhD
BixBench 计算生物 205 notebook + 数据 MCQ + open-ended Claude Opus 4.5 @tools ~17% 开放 ~20%
CompBioBench 计算生物 100 bare env program verify Codex CLI (GPT-5.4) 83%(难 59%) -
BioML-bench 生物 ML 4 domain 数据集 AUROC/Spearman agent 均低于人类 - human bl
Biomni bio agent 多 benchmark 工具+数据库 聚合 自身 LAB-Bench DbQA 74.4% -
BioProBench 湿实验协议 550k 协议文本 5 子任务 主流 LLM ~70% PQA -
ExpVid 湿实验视频 - 视频 3 层 20 MLM 短远>长 -
ProteinGym 蛋白 fitness 2.7M 变异 序列 Spearman ESM-IF1 / 多模态 ρ=0.624 -
GPQA-Diamond PhD 物/化/生 198 MCQ exact Gemini 3.1 Pro Preview 94.3% PhD ~70%
HLE 全学科 2,500 多模态 判题 Gemini 3.1 Pro 44.7% -
SuperGPQA 285 学科 26,529 MCQ(9.67 选项) exact - - -
CURIE 长上下文科学 580 长文本 多指标 Gemini Flash 2.0 / Claude-3 最佳 32% -
FrontierMath 研究数学 350 开放 形式验证 顶模型 <50% Tier1-3 IMO 金牌+Fields
SciCode 科研编码 338 sub Python unit test GPT-5.4 56.6% -
ScienceAgentBench 数据驱动 102 数据 Python + metric o1-preview + self-debug 42.2% -
DataSciBench 数据科学 222 prompt TFC 框架 Deepseek-Coder-33B - -
MLE-Bench Kaggle ML 75 比赛 Kaggle 指标 o1-preview+AIDE 16.9%(pass@8 34.1%) Kaggle 奖牌线
PaperBench 复现 ICML 20/8316 ICML 论文 rubric LLM judge Claude 3.5 Sonnet New 21.0% PhD >
RE-Bench AI R&D 7 env ML 任务 成绩 frontier agent 2h 4× 人类 61 人 / 71 次
MedQA USMLE ~12k MCQ exact o4-mini-high 95.2% medical student
HealthBench 医疗对话 5,000 多轮 rubric(48,562) o3 60% / Hard 32% 262 位医师
MedAgentBench EHR agent 300 FHIR API task success Claude 3.5 Sonnet v2 69.67% -
AgentClinic 模拟临床 9 科 7 语 对话+图 诊断准确率 Claude 3.5 最高 USMLE
ChemBench 化学综合 - MCQ + 数值 多指标 GPT-4 / Claude 家族 - 化学家
MaCBench 化学材料多模态 - 图+文 - - - -
MatBench Discovery 材料稳定性 - 晶体 ML metric Universal IP(非 LLM) - DFT
LLM4Mat-Bench 材料预测 1.9M 晶体 / 45 性质 CIF/文本/组分 MAE/R² - - -
ScienceWorld 小学科学 10 任务 文本世界 世界状态 frontier 低 80% -
DiscoveryWorld 科研发现 120/8/3 文本世界 任务成功 未列 高难 ~20% PhD ~70%
LLM-SRBench 方程发现 239 数据 符号匹配 - - -

选型建议(面向 Agentic RL 训练)

冷启动阶段(要密集、快、便宜的 0-1 信号)

  • GPQA-Diamond + MedQA + SciCode (sub):MCQ / 可执行测试,程序化验证,rollout 短。
  • 缺点:已饱和、信号上限低。

主训练阶段(想出现 agent 行为的显式信号)

  • labbench2 + bixbench (本仓库)— 已解析完毕,最契合。
  • CompBioBench + ScienceAgentBench + BioML-bench — 与 bixbench 同构,且都有 Kaggle/开源数据,可自托管。
  • MLE-Bench(OpenAI 开源)— 纯 ML 工程,可做通用 agent 能力对齐。

评估阶段(做对外可信的榜)

  • GPQA-Diamond + HLE + MLE-Bench + SciCode — 这几个是目前技术报告最常引用的 AI4Science 榜单。
  • LAB-Bench 如果你的 agent 专攻生物。
  • PaperBench 如果你要展示 AI R&D 能力(昂贵,每次 rollout 需要跑完整 ML 实验)。

避坑

  • MedQA、GPQA 等 MCQ 类已经饱和,单独用作 RL 奖励会很快 reward hacking。
  • PaperBench 每 rollout 成本极高(rubric 8316 项 + LLM judge),不适合大规模 RL;但可以做 eval。
  • ChemBench / MaCBench / MatBench 目前公开的前沿模型分数较少,若训 chemistry agent 要预期"评测基础设施薄"。

关键规律(调研结论)

  1. 2024 的 MCQ 榜单(GPQA、MedQA、MMLU-Pro)已经饱和,SOTA 超过 90%。2025-26 新 benchmark 几乎全部走 agentic + code execution + 程序化/rubric 评分 路线(BixBench、CompBioBench、MLE-Bench、PaperBench、ScienceAgentBench、BioML-bench),labbench2 的设计恰好踩在这条主趋势线上

  2. 生物(尤其 wet-lab / 克隆)是 2026 年前沿模型最明显的短板。LAB-Bench 的 Cloning、labbench2 的 cloning/protocolqa2、Biomni 在 HLE bio 只有 17.3%、ExpVid 在长程理解上的显著退化,都指向同一结论:具身性湿实验 + 程序化协议 + 多步骤反事实推理 是 GPT-5/Opus 4.6 时代的真正前沿。

  3. "程序化可验证"是新基准的生存基本功。FrontierMath、SciCode、MLE-Bench、PaperBench、ScienceAgentBench、CompBioBench 全部使用 代码跑通 / 数值对齐 / Kaggle 指标 / rubric LLM judge,而不是依赖"GPT-4 当裁判"的弱形式。labbench2 的 seqqa2/cloning reward 路径正好是这类

  4. Anthropic / OpenAI / Google 亲自发布的 AI4Science benchmark:

  5. OpenAI:MLE-Bench、PaperBench、HealthBench(外加 PaperQA2/Aviary 里集成 o1)。
  6. Google DeepMind:CURIE(ICLR'25)、ScienceAgentBench 大量引用 Gemini 分数。
  7. Anthropic:自身不发布 benchmark,但在 Opus 4.5 / 4.6 / Mythos 的 system card 中广引 LAB-Bench、MedAgentBench、ChemBench、ProtocolQA2、GPQA、HLE。

  8. FutureHouse 一条线值得整体研读:LAB-Bench → PaperQA2 → Aviary → BixBench → labbench2。这家机构基本定义了"AI for Biology benchmark"的形态——本仓库两个 benchmark 都源自他们。


调研时间 & 方法

  • 时间:2026-04-20
  • 方法:WebSearch + 英文关键词组合(AI4Science benchmark, LAB-Bench, BixBench, CompBioBench, CURIE, SciCode, MLE-Bench, PaperBench, GPQA, HLE, ChemBench, MatBench, ProteinGym, MedAgentBench 等)
  • 过滤:仅保留 (a) 有公开 paper/repo,(b) 至少有一次 frontier 模型公开评测分数,© 数据公开可复用的 benchmark。
  • 全部一手链接见 sources.md