01 · 生物学与湿实验类 AI4Science Benchmark¶
本文件收录与 labbench2 / bixbench 同构或同血统的生物学 benchmark。按与本仓库相似度从高到低排列。
1. LAB-Bench —— labbench2 的前代¶
- 机构: FutureHouse(与 labbench2 同一团队)
- 发布: 2024-07(arXiv 2407.10362)
- 规模: 2,457 题 / 8 大类 / 30 子任务;公开 80%,保留 20% 作私有 test(防污染)
- 任务形态:
- LitQA2 文献 Q&A
- DbQA 数据库检索
- SuppQA 补充材料
- FigQA 图像推理
- TableQA 表格
- ProtocolQA 协议纠错
- SeqQA DNA/蛋白序列操作
- Cloning Scenarios 分子克隆
- 评分: MCQ + rule-based(含 precision/coverage 等多指标)
- 已公开结果(原论文,2024):
- Claude 3.5 Sonnet 在 TableQA precision 上微超人类,其他任务均低于人类
- Claude 3.5 Sonnet vs GPT-4o:ProtocolQA 30% vs 20%,FigQA 均 30%,Cloning 均 20%
- FigQA 除 Claude 3.5 Sonnet 外其余模型均在随机水平(视觉推理短板)
- 最新进展: Biomni 在 DbQA 上拿 74.4%、SeqQA 上 81.9%,超过 PhD 人类基线
- links:
- paper: https://arxiv.org/html/2407.10362v1
- repo: https://github.com/Future-House/LAB-Bench
- HF dataset: https://huggingface.co/datasets/futurehouse/lab-bench
- FutureHouse 宣传页: https://www.futurehouse.org/research-announcements/lab-bench-measuring-capabilities-of-language-models-for-biology-research
与 labbench2 的关系¶
labbench2 几乎是 LAB-Bench 的直接继承者:相同的 8 大类(换成了 litqa3/dbqa2/suppqa2/figqa2/tableqa2/protocolqa2/seqqa2/cloning,数字 +1),新增了 mode 维度(file / inject / retrieve)、sourcequality、trialqa、patentqa 等 tag;reward 函数可见本仓库 labbench2/src/labbench2/seqqa2/ 与 cloning/。
2. BixBench —— 本仓库¶
- 机构: FutureHouse
- 发布: 2025-03(arXiv 2503.00096)
- 规模: 205 题,来自 60 个真实已发表的 Jupyter notebook + 对应数据
- 任务形态: 每题给一份真实计算生物分析数据(表达矩阵、FASTQ、临床元数据…),agent 要在 Python/R/Bash 沙盒里自己跑分析、生成图、得出结论
- 评分: MCQ 模式 + 开放式模式(LLM judge)
- SOTA: Claude Opus 4.5 @tools 开放式 ~17%(paper 报告),人类 baseline 开放式 ~20%
- links:
- paper: https://arxiv.org/abs/2503.00096
- repo: https://github.com/Future-House/BixBench
- 宣传页: https://www.futurehouse.org/research-announcements/bixbench
- 与 labbench2 的区别: BixBench 更"下游"—— 拿一个具体生物数据集做完整分析;labbench2 更"广而多样"—— 覆盖文献/图/表/协议/克隆等多种研究情境。
3. CompBioBench —— 2026 年最新,与 BixBench 最直接对标¶
- 发布: 2026-04(bioRxiv)
- 规模: 100 个任务,横跨基因组 / 转录组 / 表观 / 单细胞 / 人类遗传学 / ML 工作流
- 任务形态: Bare-environment 起步,agent 要自己 fetch 数据、装工具、跑分析
- 评分: 程序化验证
- SOTA(2026-04):
- Codex CLI (GPT-5.4):83%(总体),59%(最难子集)
- Claude Code (Opus 4.6):81%(总体),69%(最难子集)—— 最难子集 Claude 反超 Codex
- links:
- paper: https://www.biorxiv.org/content/10.64898/2026.04.06.716850v1
- 推荐用法: 如果你要做一个 "和 BixBench 一起出现在技术报告里" 的训练 benchmark,这是当下最合适的 companion。
4. BioML-bench —— 生物 ML pipeline 的 MLE-Bench¶
- 机构: Science-Machine
- 发布: 2025-09(bioRxiv)
- 规模: 4 个 domain(蛋白工程、单细胞组学、生物医学成像、药物发现)
- 任务形态: 给任务描述 + 数据,agent 从零建 pipeline,提交预测
- 评分: AUROC、Spearman 等标准指标
- SOTA(2025-09):
- 评测过 STELLA、Biomni(bio 专用)+ AIDE、MLAgentBench(通用)
- agent 平均低于人类 baseline;bio 专用 agent 无显著优势
- links:
- paper: https://www.biorxiv.org/content/10.1101/2025.09.01.673319v2
- repo: https://github.com/science-machine/biomlbench
- 适合: 做 RL reward = ML pipeline 成绩,真实有挑战性。
5. Biomni —— Stanford 的通用生物 agent(自带 benchmark)¶
- 机构: Stanford Jure Leskovec 组(Snap-Stanford)
- 发布: 2025-05(bioRxiv)
- 特点: 是 agent 框架,不是 benchmark,但它同时给出了聚合多 benchmark 的成绩单
- 工具箱: 105 个生物软件 + 150 个专门工具 + 59 个数据库;25 个生物医学子领域
- Benchmark 成绩:
- LAB-Bench DbQA 74.4%,SeqQA 81.9%(超 PhD)
- HLE 14 个子领域 17.3%(基线 LLM 的 5 倍)
- links:
- paper: https://www.biorxiv.org/content/10.1101/2025.05.30.656746v1
- 官网: https://biomni.stanford.edu/
- repo: https://github.com/snap-stanford/Biomni
6. BioProBench —— 湿实验协议专项¶
- 发布: 2025-05(arXiv 2505.07889)
- 规模: BioProCorpus 底座(27,000 协议)→ 550,000+ 任务实例
- 5 个子任务:
- Protocol QA(协议问答)
- Step Ordering(步骤排序)
- Error Correction(纠错)
- Protocol Generation(生成)
- Protocol Reasoning(推理)
- SOTA: 主流 LLM 在 PQA-Acc 约 70%;深推理 / 定量精度 / 安全意识维度显著下降
- links:
- paper: https://arxiv.org/abs/2505.07889
- repo: https://github.com/YuyangSunshine/bioprotocolbench
- HF: https://huggingface.co/datasets/GreatCaptainNemo/BioProBench
- 对标 labbench2: 直接对应
protocolqa2但规模大三个量级;如果你要单独训协议能力,它比 LAB-Bench/labbench2 的 ProtocolQA 子集更合适。
7. ExpVid —— 湿实验视频理解(ICLR'26)¶
- 发布: ICLR 2026(OpenReview)
- 特点: 视频基准,三层:
- 秒级单步感知
- 分钟级多步理解
- 跨工作流整段推理
- 评测模型: 20 个多模态语言模型
- 发现:
- 短时 OK、长时 / 被遮挡物体区分 / 跨步数量与状态追踪 这几个维度显著下降
- 提示"可靠视觉锚定 + 结构化推理"是真正湿实验最急需的能力
- links:
- paper: https://openreview.net/pdf/050bd6a4d5906f9bf809dfbc3677f111268bd7d5.pdf
8. PaperQA2 / Aviary —— 文献 RAG + 科研 agent 环境¶
- 机构: FutureHouse
- PaperQA2 (2024-09, Nature):
- 是一套 agentic RAG 系统,在 LitQA2 上超过 PhD
- PhD 基线:73.8% precision / 67.7% accuracy
- PaperQA2:超人精度
- 论文: https://arxiv.org/pdf/2409.13740
- Aviary (2024-12, arXiv 2412.21154):
- 训练 agent 的框架,内置 5 个环境,其中 3 个是生物科研环境:
- 分子克隆 DNA 构建
- 文献问答(PaperQA2 作为一个 environment)
- 蛋白质稳定性工程
- 论文: https://arxiv.org/html/2412.21154v1
- 与 labbench2 关系: cloning 环境就是 labbench2 cloning tag 的前身;PaperQA2 环境等价于 litqa 类任务。
9. LitQA / LitQA2 / LitQA3(嵌在 LAB-Bench / labbench2)¶
- 文献 RAG benchmark,LAB-Bench 里的一个子任务,labbench2 里叫
litqa3。 - 评测要求:给问题 → 检索正确论文 → 抽取答案
- 基线:
- PhD:precision 73.8%、accuracy 67.7%
- PaperQA2:超人
10. ProteinGym —— 蛋白 fitness 的标准基线¶
- 机构: OATML / Marks Lab
- 发布: NeurIPS 2023(持续更新)
- 规模:
- 替换基准:~2.7M 错义变异 / 217 DMS assay / 2,525 临床蛋白
- 插缺基准:~300k 变异 / 74 DMS / 1,555 蛋白
- 评分: Spearman ρ
- SOTA(2025):
- ESM-2 650M 零样本:ρ=0.518
- ESM-IF1 稳定性任务:ρ=0.624
- 结构感知 + 多模态集成领先
- links:
- 官网: https://proteingym.org/
- repo: https://github.com/OATML-Markslab/ProteinGym
- paper: https://pmc.ncbi.nlm.nih.gov/articles/PMC10723403/
- 定位: 非 LLM benchmark,但 ESM / PLM 家族必评,也是 labbench2 seqqa2 某些蛋白相关 reward 的"上游"参考。
汇总(按与 labbench2/bixbench 相似度)¶
| Benchmark | 与 labbench2 相似度 | 与 bixbench 相似度 | 推荐度(做 RL) |
|---|---|---|---|
| LAB-Bench | ⭐⭐⭐⭐⭐ 同血统,直接前代 | ⭐⭐ | 高 |
| BixBench | ⭐⭐⭐(含 cloning/protocol) | 本身 | — |
| CompBioBench | ⭐⭐ | ⭐⭐⭐⭐⭐ 最直接对标 | 非常高 |
| BioML-bench | ⭐ | ⭐⭐⭐⭐ 端到端 ML | 高 |
| Biomni(agent,非 benchmark) | — | — | 可作为 baseline |
| BioProBench | ⭐⭐⭐⭐(协议专精) | ⭐⭐ | 高 |
| ExpVid | ⭐⭐(协议+视频) | ⭐ | 待多模态 ready |
| PaperQA2/Aviary | ⭐⭐⭐ | ⭐⭐ | 高(可复用环境) |
| ProteinGym | ⭐(seqqa2 子) | ⭐ | 非 LLM,参考 |