01 · 生物学与湿实验类 AI4Science Benchmark¶

本文件收录与 labbench2 / bixbench 同构或同血统的生物学 benchmark。按与本仓库相似度从高到低排列。

1. LAB-Bench —— labbench2 的前代¶

机构: FutureHouse(与 labbench2 同一团队)
发布: 2024-07(arXiv 2407.10362)
规模: 2,457 题 / 8 大类 / 30 子任务;公开 80%,保留 20% 作私有 test(防污染)
任务形态:
LitQA2 文献 Q&A
DbQA 数据库检索
SuppQA 补充材料
FigQA 图像推理
TableQA 表格
ProtocolQA 协议纠错
SeqQA DNA/蛋白序列操作
Cloning Scenarios 分子克隆
评分: MCQ + rule-based(含 precision/coverage 等多指标)
已公开结果(原论文,2024):
Claude 3.5 Sonnet 在 TableQA precision 上微超人类,其他任务均低于人类
Claude 3.5 Sonnet vs GPT-4o:ProtocolQA 30% vs 20%,FigQA 均 30%,Cloning 均 20%
FigQA 除 Claude 3.5 Sonnet 外其余模型均在随机水平(视觉推理短板)
最新进展: Biomni 在 DbQA 上拿 74.4%、SeqQA 上 81.9%,超过 PhD 人类基线
links:
paper: https://arxiv.org/html/2407.10362v1
repo: https://github.com/Future-House/LAB-Bench
HF dataset: https://huggingface.co/datasets/futurehouse/lab-bench
FutureHouse 宣传页: https://www.futurehouse.org/research-announcements/lab-bench-measuring-capabilities-of-language-models-for-biology-research

与 labbench2 的关系¶

labbench2 几乎是 LAB-Bench 的直接继承者:相同的 8 大类(换成了 litqa3/dbqa2/suppqa2/figqa2/tableqa2/protocolqa2/seqqa2/cloning,数字 +1),新增了 mode 维度(file / inject / retrieve)、sourcequality、trialqa、patentqa 等 tag;reward 函数可见本仓库 labbench2/src/labbench2/seqqa2/ 与 cloning/。

2. BixBench —— 本仓库¶

机构: FutureHouse
发布: 2025-03(arXiv 2503.00096)
规模: 205 题,来自 60 个真实已发表的 Jupyter notebook + 对应数据
任务形态: 每题给一份真实计算生物分析数据(表达矩阵、FASTQ、临床元数据…),agent 要在 Python/R/Bash 沙盒里自己跑分析、生成图、得出结论
评分: MCQ 模式 + 开放式模式(LLM judge)
SOTA: Claude Opus 4.5 @tools 开放式 ~17%(paper 报告),人类 baseline 开放式 ~20%
links:
paper: https://arxiv.org/abs/2503.00096
repo: https://github.com/Future-House/BixBench
宣传页: https://www.futurehouse.org/research-announcements/bixbench
与 labbench2 的区别: BixBench 更"下游"—— 拿一个具体生物数据集做完整分析;labbench2 更"广而多样"—— 覆盖文献/图/表/协议/克隆等多种研究情境。

3. CompBioBench —— 2026 年最新,与 BixBench 最直接对标¶

发布: 2026-04(bioRxiv)
规模: 100 个任务,横跨基因组 / 转录组 / 表观 / 单细胞 / 人类遗传学 / ML 工作流
任务形态: Bare-environment 起步,agent 要自己 fetch 数据、装工具、跑分析
评分: 程序化验证
SOTA(2026-04):
Codex CLI (GPT-5.4):83%(总体),59%(最难子集)
Claude Code (Opus 4.6):81%(总体),69%(最难子集)—— 最难子集 Claude 反超 Codex
links:
paper: https://www.biorxiv.org/content/10.64898/2026.04.06.716850v1
推荐用法: 如果你要做一个 "和 BixBench 一起出现在技术报告里" 的训练 benchmark,这是当下最合适的 companion。

4. BioML-bench —— 生物 ML pipeline 的 MLE-Bench¶

机构: Science-Machine
发布: 2025-09(bioRxiv)
规模: 4 个 domain(蛋白工程、单细胞组学、生物医学成像、药物发现)
任务形态: 给任务描述 + 数据,agent 从零建 pipeline,提交预测
评分: AUROC、Spearman 等标准指标
SOTA(2025-09):
评测过 STELLA、Biomni(bio 专用)+ AIDE、MLAgentBench(通用)
agent 平均低于人类 baseline;bio 专用 agent 无显著优势
links:
paper: https://www.biorxiv.org/content/10.1101/2025.09.01.673319v2
repo: https://github.com/science-machine/biomlbench
适合: 做 RL reward = ML pipeline 成绩,真实有挑战性。

5. Biomni —— Stanford 的通用生物 agent(自带 benchmark)¶

机构: Stanford Jure Leskovec 组(Snap-Stanford)
发布: 2025-05(bioRxiv)
特点: 是 agent 框架,不是 benchmark,但它同时给出了聚合多 benchmark 的成绩单
工具箱: 105 个生物软件 + 150 个专门工具 + 59 个数据库;25 个生物医学子领域
Benchmark 成绩:
LAB-Bench DbQA 74.4%,SeqQA 81.9%(超 PhD)
HLE 14 个子领域 17.3%(基线 LLM 的 5 倍)
links:
paper: https://www.biorxiv.org/content/10.1101/2025.05.30.656746v1
官网: https://biomni.stanford.edu/
repo: https://github.com/snap-stanford/Biomni

6. BioProBench —— 湿实验协议专项¶

发布: 2025-05(arXiv 2505.07889)
规模: BioProCorpus 底座(27,000 协议)→ 550,000+ 任务实例
5 个子任务:
Protocol QA(协议问答)
Step Ordering(步骤排序)
Error Correction(纠错)
Protocol Generation(生成)
Protocol Reasoning(推理)
SOTA: 主流 LLM 在 PQA-Acc 约 70%;深推理 / 定量精度 / 安全意识维度显著下降
links:
paper: https://arxiv.org/abs/2505.07889
repo: https://github.com/YuyangSunshine/bioprotocolbench
HF: https://huggingface.co/datasets/GreatCaptainNemo/BioProBench
对标 labbench2: 直接对应 protocolqa2 但规模大三个量级;如果你要单独训协议能力,它比 LAB-Bench/labbench2 的 ProtocolQA 子集更合适。

7. ExpVid —— 湿实验视频理解(ICLR'26)¶

发布: ICLR 2026(OpenReview)
特点: 视频基准,三层:
秒级单步感知
分钟级多步理解
跨工作流整段推理
评测模型: 20 个多模态语言模型
发现:
短时 OK、长时 / 被遮挡物体区分 / 跨步数量与状态追踪 这几个维度显著下降
提示"可靠视觉锚定 + 结构化推理"是真正湿实验最急需的能力
links:
paper: https://openreview.net/pdf/050bd6a4d5906f9bf809dfbc3677f111268bd7d5.pdf

8. PaperQA2 / Aviary —— 文献 RAG + 科研 agent 环境¶

机构: FutureHouse
PaperQA2 (2024-09, Nature):
是一套 agentic RAG 系统,在 LitQA2 上超过 PhD
PhD 基线:73.8% precision / 67.7% accuracy
PaperQA2:超人精度
论文: https://arxiv.org/pdf/2409.13740
Aviary (2024-12, arXiv 2412.21154):
训练 agent 的框架,内置 5 个环境,其中 3 个是生物科研环境:
1. 分子克隆 DNA 构建
2. 文献问答(PaperQA2 作为一个 environment)
3. 蛋白质稳定性工程
论文: https://arxiv.org/html/2412.21154v1
与 labbench2 关系: cloning 环境就是 labbench2 cloning tag 的前身;PaperQA2 环境等价于 litqa 类任务。

9. LitQA / LitQA2 / LitQA3(嵌在 LAB-Bench / labbench2)¶

文献 RAG benchmark,LAB-Bench 里的一个子任务,labbench2 里叫 litqa3。
评测要求:给问题 → 检索正确论文 → 抽取答案
基线:
PhD:precision 73.8%、accuracy 67.7%
PaperQA2:超人

10. ProteinGym —— 蛋白 fitness 的标准基线¶

机构: OATML / Marks Lab
发布: NeurIPS 2023(持续更新)
规模:
替换基准:~2.7M 错义变异 / 217 DMS assay / 2,525 临床蛋白
插缺基准:~300k 变异 / 74 DMS / 1,555 蛋白
评分: Spearman ρ
SOTA(2025):
ESM-2 650M 零样本:ρ=0.518
ESM-IF1 稳定性任务:ρ=0.624
结构感知 + 多模态集成领先
links:
官网: https://proteingym.org/
repo: https://github.com/OATML-Markslab/ProteinGym
paper: https://pmc.ncbi.nlm.nih.gov/articles/PMC10723403/
定位: 非 LLM benchmark,但 ESM / PLM 家族必评,也是 labbench2 seqqa2 某些蛋白相关 reward 的"上游"参考。

汇总(按与 labbench2/bixbench 相似度)¶

Benchmark	与 labbench2 相似度	与 bixbench 相似度	推荐度(做 RL)
LAB-Bench	⭐⭐⭐⭐⭐ 同血统,直接前代	⭐⭐	高
BixBench	⭐⭐⭐(含 cloning/protocol)	本身	—
CompBioBench	⭐⭐	⭐⭐⭐⭐⭐ 最直接对标	非常高
BioML-bench	⭐	⭐⭐⭐⭐ 端到端 ML	高
Biomni(agent,非 benchmark)	—	—	可作为 baseline
BioProBench	⭐⭐⭐⭐(协议专精)	⭐⭐	高
ExpVid	⭐⭐(协议+视频)	⭐	待多模态 ready
PaperQA2/Aviary	⭐⭐⭐	⭐⭐	高(可复用环境)
ProteinGym	⭐(seqqa2 子)	⭐	非 LLM,参考