跳转至

01 · 生物学与湿实验类 AI4Science Benchmark

本文件收录与 labbench2 / bixbench 同构或同血统的生物学 benchmark。按与本仓库相似度从高到低排列。


1. LAB-Bench —— labbench2 的前代

  • 机构: FutureHouse(与 labbench2 同一团队)
  • 发布: 2024-07(arXiv 2407.10362)
  • 规模: 2,457 题 / 8 大类 / 30 子任务;公开 80%,保留 20% 作私有 test(防污染)
  • 任务形态:
  • LitQA2 文献 Q&A
  • DbQA 数据库检索
  • SuppQA 补充材料
  • FigQA 图像推理
  • TableQA 表格
  • ProtocolQA 协议纠错
  • SeqQA DNA/蛋白序列操作
  • Cloning Scenarios 分子克隆
  • 评分: MCQ + rule-based(含 precision/coverage 等多指标)
  • 已公开结果(原论文,2024):
  • Claude 3.5 Sonnet 在 TableQA precision 上微超人类,其他任务均低于人类
  • Claude 3.5 Sonnet vs GPT-4o:ProtocolQA 30% vs 20%,FigQA 均 30%,Cloning 均 20%
  • FigQA 除 Claude 3.5 Sonnet 外其余模型均在随机水平(视觉推理短板)
  • 最新进展: Biomni 在 DbQA 上拿 74.4%、SeqQA 上 81.9%,超过 PhD 人类基线
  • links:
  • paper: https://arxiv.org/html/2407.10362v1
  • repo: https://github.com/Future-House/LAB-Bench
  • HF dataset: https://huggingface.co/datasets/futurehouse/lab-bench
  • FutureHouse 宣传页: https://www.futurehouse.org/research-announcements/lab-bench-measuring-capabilities-of-language-models-for-biology-research

与 labbench2 的关系

labbench2 几乎是 LAB-Bench 的直接继承者:相同的 8 大类(换成了 litqa3/dbqa2/suppqa2/figqa2/tableqa2/protocolqa2/seqqa2/cloning,数字 +1),新增了 mode 维度(file / inject / retrieve)、sourcequality、trialqa、patentqa 等 tag;reward 函数可见本仓库 labbench2/src/labbench2/seqqa2/cloning/


2. BixBench —— 本仓库

  • 机构: FutureHouse
  • 发布: 2025-03(arXiv 2503.00096)
  • 规模: 205 题,来自 60 个真实已发表的 Jupyter notebook + 对应数据
  • 任务形态: 每题给一份真实计算生物分析数据(表达矩阵、FASTQ、临床元数据…),agent 要在 Python/R/Bash 沙盒里自己跑分析、生成图、得出结论
  • 评分: MCQ 模式 + 开放式模式(LLM judge)
  • SOTA: Claude Opus 4.5 @tools 开放式 ~17%(paper 报告),人类 baseline 开放式 ~20%
  • links:
  • paper: https://arxiv.org/abs/2503.00096
  • repo: https://github.com/Future-House/BixBench
  • 宣传页: https://www.futurehouse.org/research-announcements/bixbench
  • 与 labbench2 的区别: BixBench 更"下游"—— 拿一个具体生物数据集做完整分析;labbench2 更"广而多样"—— 覆盖文献/图/表/协议/克隆等多种研究情境。

3. CompBioBench —— 2026 年最新,与 BixBench 最直接对标

  • 发布: 2026-04(bioRxiv)
  • 规模: 100 个任务,横跨基因组 / 转录组 / 表观 / 单细胞 / 人类遗传学 / ML 工作流
  • 任务形态: Bare-environment 起步,agent 要自己 fetch 数据、装工具、跑分析
  • 评分: 程序化验证
  • SOTA(2026-04):
  • Codex CLI (GPT-5.4):83%(总体),59%(最难子集)
  • Claude Code (Opus 4.6):81%(总体),69%(最难子集)—— 最难子集 Claude 反超 Codex
  • links:
  • paper: https://www.biorxiv.org/content/10.64898/2026.04.06.716850v1
  • 推荐用法: 如果你要做一个 "和 BixBench 一起出现在技术报告里" 的训练 benchmark,这是当下最合适的 companion

4. BioML-bench —— 生物 ML pipeline 的 MLE-Bench

  • 机构: Science-Machine
  • 发布: 2025-09(bioRxiv)
  • 规模: 4 个 domain(蛋白工程、单细胞组学、生物医学成像、药物发现)
  • 任务形态: 给任务描述 + 数据,agent 从零建 pipeline,提交预测
  • 评分: AUROC、Spearman 等标准指标
  • SOTA(2025-09):
  • 评测过 STELLA、Biomni(bio 专用)+ AIDE、MLAgentBench(通用)
  • agent 平均低于人类 baseline;bio 专用 agent 无显著优势
  • links:
  • paper: https://www.biorxiv.org/content/10.1101/2025.09.01.673319v2
  • repo: https://github.com/science-machine/biomlbench
  • 适合: 做 RL reward = ML pipeline 成绩,真实有挑战性。

5. Biomni —— Stanford 的通用生物 agent(自带 benchmark)

  • 机构: Stanford Jure Leskovec 组(Snap-Stanford)
  • 发布: 2025-05(bioRxiv)
  • 特点: 是 agent 框架,不是 benchmark,但它同时给出了聚合多 benchmark 的成绩单
  • 工具箱: 105 个生物软件 + 150 个专门工具 + 59 个数据库;25 个生物医学子领域
  • Benchmark 成绩:
  • LAB-Bench DbQA 74.4%,SeqQA 81.9%(超 PhD)
  • HLE 14 个子领域 17.3%(基线 LLM 的 5 倍)
  • links:
  • paper: https://www.biorxiv.org/content/10.1101/2025.05.30.656746v1
  • 官网: https://biomni.stanford.edu/
  • repo: https://github.com/snap-stanford/Biomni

6. BioProBench —— 湿实验协议专项

  • 发布: 2025-05(arXiv 2505.07889)
  • 规模: BioProCorpus 底座(27,000 协议)→ 550,000+ 任务实例
  • 5 个子任务:
  • Protocol QA(协议问答)
  • Step Ordering(步骤排序)
  • Error Correction(纠错)
  • Protocol Generation(生成)
  • Protocol Reasoning(推理)
  • SOTA: 主流 LLM 在 PQA-Acc 约 70%;深推理 / 定量精度 / 安全意识维度显著下降
  • links:
  • paper: https://arxiv.org/abs/2505.07889
  • repo: https://github.com/YuyangSunshine/bioprotocolbench
  • HF: https://huggingface.co/datasets/GreatCaptainNemo/BioProBench
  • 对标 labbench2: 直接对应 protocolqa2 但规模大三个量级;如果你要单独训协议能力,它比 LAB-Bench/labbench2 的 ProtocolQA 子集更合适。

7. ExpVid —— 湿实验视频理解(ICLR'26)

  • 发布: ICLR 2026(OpenReview)
  • 特点: 视频基准,三层:
  • 秒级单步感知
  • 分钟级多步理解
  • 跨工作流整段推理
  • 评测模型: 20 个多模态语言模型
  • 发现:
  • 短时 OK、长时 / 被遮挡物体区分 / 跨步数量与状态追踪 这几个维度显著下降
  • 提示"可靠视觉锚定 + 结构化推理"是真正湿实验最急需的能力
  • links:
  • paper: https://openreview.net/pdf/050bd6a4d5906f9bf809dfbc3677f111268bd7d5.pdf

8. PaperQA2 / Aviary —— 文献 RAG + 科研 agent 环境

  • 机构: FutureHouse
  • PaperQA2 (2024-09, Nature):
  • 是一套 agentic RAG 系统,在 LitQA2 上超过 PhD
  • PhD 基线:73.8% precision / 67.7% accuracy
  • PaperQA2:超人精度
  • 论文: https://arxiv.org/pdf/2409.13740
  • Aviary (2024-12, arXiv 2412.21154):
  • 训练 agent 的框架,内置 5 个环境,其中 3 个是生物科研环境:
    1. 分子克隆 DNA 构建
    2. 文献问答(PaperQA2 作为一个 environment)
    3. 蛋白质稳定性工程
  • 论文: https://arxiv.org/html/2412.21154v1
  • 与 labbench2 关系: cloning 环境就是 labbench2 cloning tag 的前身;PaperQA2 环境等价于 litqa 类任务。

9. LitQA / LitQA2 / LitQA3(嵌在 LAB-Bench / labbench2)

  • 文献 RAG benchmark,LAB-Bench 里的一个子任务,labbench2 里叫 litqa3
  • 评测要求:给问题 → 检索正确论文 → 抽取答案
  • 基线:
  • PhD:precision 73.8%、accuracy 67.7%
  • PaperQA2:超人

10. ProteinGym —— 蛋白 fitness 的标准基线

  • 机构: OATML / Marks Lab
  • 发布: NeurIPS 2023(持续更新)
  • 规模:
  • 替换基准:~2.7M 错义变异 / 217 DMS assay / 2,525 临床蛋白
  • 插缺基准:~300k 变异 / 74 DMS / 1,555 蛋白
  • 评分: Spearman ρ
  • SOTA(2025):
  • ESM-2 650M 零样本:ρ=0.518
  • ESM-IF1 稳定性任务:ρ=0.624
  • 结构感知 + 多模态集成领先
  • links:
  • 官网: https://proteingym.org/
  • repo: https://github.com/OATML-Markslab/ProteinGym
  • paper: https://pmc.ncbi.nlm.nih.gov/articles/PMC10723403/
  • 定位: 非 LLM benchmark,但 ESM / PLM 家族必评,也是 labbench2 seqqa2 某些蛋白相关 reward 的"上游"参考。

汇总(按与 labbench2/bixbench 相似度)

Benchmark 与 labbench2 相似度 与 bixbench 相似度 推荐度(做 RL)
LAB-Bench ⭐⭐⭐⭐⭐ 同血统,直接前代 ⭐⭐
BixBench ⭐⭐⭐(含 cloning/protocol) 本身
CompBioBench ⭐⭐ ⭐⭐⭐⭐⭐ 最直接对标 非常高
BioML-bench ⭐⭐⭐⭐ 端到端 ML
Biomni(agent,非 benchmark) 可作为 baseline
BioProBench ⭐⭐⭐⭐(协议专精) ⭐⭐
ExpVid ⭐⭐(协议+视频) 待多模态 ready
PaperQA2/Aviary ⭐⭐⭐ ⭐⭐ 高(可复用环境)
ProteinGym ⭐(seqqa2 子) 非 LLM,参考