跳转至

03 · 科研代码与 Agent Benchmark

本文件收录 agent 必须写代码、跑代码、读数据、做 ML 实验 类的 benchmark。与 BixBench 的形态最接近,是本仓库 RL 训练的核心邻居。


1. SciCode —— 由科学家策划的研究级编程

  • 发布: NeurIPS 2024(arXiv 2407.13168)
  • 规模:
  • 80 主问题 / 338 子问题
  • 5 大学科:物理、数学、材料、生物、化学
  • 16 个子领域
  • 任务形态: 给科学问题 + 可选背景 → agent 写 Python 解法
  • 评分: 单元测试(scientist-annotated gold solution)
  • SOTA:
  • GPT-5.4: 56.6%(2026-03)
  • Gemini 3 Pro Preview: 56.1%
  • GPT-5.2-Codex: 54.6%
  • 2024-07 起点:Claude 3.5 Sonnet 最真实设定 仅 4.6% —— 进步速度非常快
  • links:
  • paper: https://proceedings.neurips.cc/paper_files/paper/2024/file/36850592258c8c41cecdaa3dea5ff7de-Paper-Datasets_and_Benchmarks_Track.pdf
  • 官网: https://scicode-bench.github.io/
  • repo: https://github.com/scicode-bench/SciCode
  • AA leaderboard: https://artificialanalysis.ai/evaluations/scicode
  • 适用: 冷启动和主训练都合适,子问题细粒度、reward 可程序化,和 bixbench 同源。

2. ScienceAgentBench —— OSU 的数据驱动科研 agent

  • 机构: OSU NLP Group
  • 发布: ICLR 2025(arXiv 2410.05080)
  • 规模: 102 个任务,来自 44 篇同行评审论文 / 4 学科:
  • 生物信息(细胞图像)
  • 计算化学(分子活性可视化)
  • 地理信息(洪涝风险图)
  • 心理 & 认知神经(EEG 时序)
  • 任务形态: 输出统一为 一个 Python 程序文件
  • 评分: 执行结果 / 指标 / 成本 多维数组
  • SOTA:
  • 直接 prompting:最佳 agent 32.4%
  • +专家知识提示:34.3%
  • o1-preview + self-debug: 42.2%(但成本 10× 于其他 LLM)
  • links:
  • paper: https://arxiv.org/abs/2410.05080
  • 官网: https://osu-nlp-group.github.io/ScienceAgentBench/
  • repo: https://github.com/OSU-NLP-Group/ScienceAgentBench
  • 与 bixbench 对标: 形式极度接近——都是真实论文 → 数据 → Python 分析,但 ScienceAgentBench 学科更广,任务单文件更封闭。

3. DataSciBench —— 数据科学 prompt benchmark

  • 机构: 清华(THUDM)
  • 发布: 2025-02(arXiv 2502.13897)
  • 规模: 222 prompt / 6 任务类型
  • 特点:
  • Task-Function-Code (TFC) 框架:对每次代码执行按精确指标 + 程序化规则评分
  • 半自动 pipeline + LLM 自一致 + 人工验证生成 ground truth
  • SOTA:
  • API 模型普遍胜于开源
  • 开源最佳:Deepseek-Coder-33B-Instruct
  • 发现:善推理的模型不一定善做复杂数据科学
  • links:
  • paper: https://arxiv.org/abs/2502.13897
  • 官网: https://datascibench.github.io/
  • repo: https://github.com/THUDM/DataSciBench
  • 适用: 作为 RL 训练的 补充信号源(和 SciCode 同性质但 prompt 更自然)。

4. MLE-Bench —— OpenAI 的 Kaggle ML 工程

  • 机构: OpenAI(2024-10,arXiv 2410.07095)
  • 规模: 75 个 Kaggle 比赛
  • 22 Low(30%)
  • 38 Medium(50%)
  • 15 High(20%)
  • 任务形态: agent 训模型、准备数据、跑实验、提交预测
  • 评分: Kaggle 公开 leaderboard
  • SOTA:
  • o1-preview + AIDE scaffolding: 16.9% 达铜牌线(pass@1)
  • pass@8 翻倍到 34.1%
  • links:
  • paper: https://arxiv.org/abs/2410.07095
  • OpenAI: https://openai.com/index/mle-bench/
  • repo: https://github.com/openai/mle-bench
  • 适用:
  • 极佳的通用 agent 能力训练源(不限 bio)
  • Reward 完全客观(Kaggle 分数)
  • 与 BioML-bench 联合使用可覆盖"通用 ML + 生物 ML"

5. PaperBench —— OpenAI 的"复现 AI 论文"benchmark

  • 机构: OpenAI
  • 发布: 2025-04(ICML 2025 WIP poster)
  • 规模: 20 篇 ICML 2024 Spotlight/Oral / 8,316 个可分级子任务
  • 任务形态: 从零复现整篇论文——读懂贡献、写代码、跑实验
  • 评分: Rubric 与论文作者共建 + LLM-as-judge 自动打分
  • SOTA:
  • Claude 3.5 Sonnet (New) + 开源 scaffolding: 21.0% 平均复现分
  • PhD ML 实验员 仍高于模型
  • links:
  • paper: https://arxiv.org/abs/2504.01848
  • OpenAI: https://openai.com/index/paperbench/
  • ICML poster: https://icml.cc/virtual/2025/poster/43586
  • 适用:
  • 不适合大规模 RL(每 rollout 要跑完整 ML 实验,昂贵)
  • 适合做阶段性 eval,尤其对外展示 AI R&D 能力
  • : 这是目前最难、最贵、最有含金量的 "AI for ML R&D" benchmark。

6. RE-Bench —— METR 的"AI R&D vs 人类专家"

  • 机构: METR (Model Evaluation & Threat Research)
  • 发布: 2024-11(ICML 2025 spotlight,arXiv 2411.15114)
  • 规模: 7 个开放式 ML R&D 环境 + 71 次 × 8 小时人类专家尝试(61 人)
  • 任务: 典型 ML R&D,如拟合 scaling law、优化 GPU kernel
  • 核心发现:
  • 2 小时预算内,前沿 agent 分数 4× 人类
  • 8 小时人类刚好赶上 agent
  • 32 小时人类 2× agent
  • → 人类有更好的"时间回报率",agent 快但早期天花板明显
  • links:
  • paper: https://arxiv.org/abs/2411.15114
  • METR blog: https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/
  • ICML poster: https://icml.cc/virtual/2025/poster/46519
  • 适用: 作为"前沿能力水位 gauge",不作训练信号。

7. LMR-Bench —— LLM 机器学习研究能力

  • 发布: EMNLP 2025
  • paper: https://aclanthology.org/2025.emnlp-main.314.pdf
  • 补充位置,未深入展开。

8. CompBioBench(回链到 01 文件)

01_biology_wetlab.md#3-compbiobench —— 同属 agentic coding 类,但聚焦生物。


汇总

Benchmark 规模 程序化评分 SOTA 开源 训练成本 与 bixbench 相似度
SciCode 338 子 ✅ 单元测试 56.6% ⭐⭐⭐⭐
ScienceAgentBench 102 ✅ 执行+指标 42.2% ⭐⭐⭐⭐⭐
DataSciBench 222 ✅ TFC 开源最佳 DeepSeek ⭐⭐⭐⭐
MLE-Bench 75 ✅ Kaggle 指标 16.9/34.1% ⭐⭐⭐
PaperBench 20/8316 ✅ Rubric 21% 极高 ⭐⭐⭐
RE-Bench 7 env ✅ 成绩 2h=4×人类 极高 ⭐⭐

选型建议

  • 主训练首选:SciCode + ScienceAgentBench + CompBioBench + BixBench 四选多 → 形式全部 "agent 写 Python",reward 可程序化
  • 通用能力补强:MLE-Bench
  • 阶段性评测:PaperBench(昂贵但权威)、RE-Bench(与人类对比)
  • 避免: PaperBench / RE-Bench 用作 inner-loop 信号—— 每 rollout 成本过高