03 · 科研代码与 Agent Benchmark¶

本文件收录 agent 必须写代码、跑代码、读数据、做 ML 实验 类的 benchmark。与 BixBench 的形态最接近,是本仓库 RL 训练的核心邻居。

1. SciCode —— 由科学家策划的研究级编程¶

发布: NeurIPS 2024(arXiv 2407.13168)
规模:
80 主问题 / 338 子问题
5 大学科:物理、数学、材料、生物、化学
16 个子领域
任务形态: 给科学问题 + 可选背景 → agent 写 Python 解法
评分: 单元测试(scientist-annotated gold solution)
SOTA:
GPT-5.4: 56.6%(2026-03)
Gemini 3 Pro Preview: 56.1%
GPT-5.2-Codex: 54.6%
2024-07 起点:Claude 3.5 Sonnet 最真实设定 仅 4.6% —— 进步速度非常快
links:
paper: https://proceedings.neurips.cc/paper_files/paper/2024/file/36850592258c8c41cecdaa3dea5ff7de-Paper-Datasets_and_Benchmarks_Track.pdf
官网: https://scicode-bench.github.io/
repo: https://github.com/scicode-bench/SciCode
AA leaderboard: https://artificialanalysis.ai/evaluations/scicode
适用: 冷启动和主训练都合适,子问题细粒度、reward 可程序化,和 bixbench 同源。

机构: OSU NLP Group
发布: ICLR 2025(arXiv 2410.05080)
规模: 102 个任务,来自 44 篇同行评审论文 / 4 学科:
生物信息(细胞图像)
计算化学(分子活性可视化)
地理信息(洪涝风险图)
心理 & 认知神经(EEG 时序)
任务形态: 输出统一为 一个 Python 程序文件
评分: 执行结果 / 指标 / 成本多维数组
SOTA:
直接 prompting:最佳 agent 32.4%
+专家知识提示:34.3%
o1-preview + self-debug: 42.2%(但成本 10× 于其他 LLM)
links:
paper: https://arxiv.org/abs/2410.05080
官网: https://osu-nlp-group.github.io/ScienceAgentBench/
repo: https://github.com/OSU-NLP-Group/ScienceAgentBench
与 bixbench 对标: 形式极度接近——都是真实论文 → 数据 → Python 分析,但 ScienceAgentBench 学科更广,任务单文件更封闭。

机构: METR (Model Evaluation & Threat Research)
发布: 2024-11(ICML 2025 spotlight,arXiv 2411.15114)
规模: 7 个开放式 ML R&D 环境 + 71 次 × 8 小时人类专家尝试(61 人)
任务: 典型 ML R&D,如拟合 scaling law、优化 GPU kernel
核心发现:
2 小时预算内,前沿 agent 分数 4× 人类
8 小时人类刚好赶上 agent
32 小时人类 2× agent
→ 人类有更好的"时间回报率",agent 快但早期天花板明显
links:
paper: https://arxiv.org/abs/2411.15114
METR blog: https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/
ICML poster: https://icml.cc/virtual/2025/poster/46519
适用: 作为"前沿能力水位 gauge",不作训练信号。

见 01_biology_wetlab.md#3-compbiobench —— 同属 agentic coding 类,但聚焦生物。

Benchmark	规模	程序化评分	SOTA	开源	训练成本	与 bixbench 相似度
SciCode	338 子	✅ 单元测试	56.6%	✅	中	⭐⭐⭐⭐
ScienceAgentBench	102	✅ 执行+指标	42.2%	✅	中	⭐⭐⭐⭐⭐
DataSciBench	222	✅ TFC	开源最佳 DeepSeek	✅	中	⭐⭐⭐⭐
MLE-Bench	75	✅ Kaggle 指标	16.9/34.1%	✅	高	⭐⭐⭐
PaperBench	20/8316	✅ Rubric	21%	✅	极高	⭐⭐⭐
RE-Bench	7 env	✅ 成绩	2h=4×人类	✅	极高	⭐⭐

主训练首选:SciCode + ScienceAgentBench + CompBioBench + BixBench 四选多 → 形式全部 "agent 写 Python",reward 可程序化
通用能力补强:MLE-Bench
阶段性评测:PaperBench(昂贵但权威)、RE-Bench(与人类对比)
避免: PaperBench / RE-Bench 用作 inner-loop 信号—— 每 rollout 成本过高