跳转至

02 · 科学 Q&A 与推理 Benchmark

通用科学推理类 benchmark,适合作为 Agentic RL 冷启动期的密集 0-1 信号源,但要警惕GPQA/MedQA 级别已经饱和的问题。


1. GPQA / GPQA-Diamond

  • 全名: Graduate-Level Google-Proof Q&A
  • 机构: NYU + Cohere 等
  • 发布: 2023-11(arXiv 2311.12022)
  • 规模: 448 题总 / 198 题 Diamond(顶质量子集)
  • 学科: 物理 + 化学 + 生物
  • 特点: 专家写、非专家即使能上网也只有 ~34%,"Google-proof"
  • SOTA(2026-04):
  • Gemini 3.1 Pro Preview: 94.3%
  • GPT-5.4: 92.0%
  • GPT-5.3 Codex: 91.5%
  • Claude Opus 4.6: 91%
  • 人类基线: PhD domain expert ~70%
  • 状态: 事实上已饱和,从 2024-09 o1 的 +7 超人到 2026-02 Gemini 3.1 Pro 的 +24 超人
  • links:
  • paper: https://openreview.net/pdf?id=Ti67584b98
  • Epoch leaderboard: https://epoch.ai/benchmarks/gpqa-diamond
  • Artificial Analysis: https://artificialanalysis.ai/evaluations/gpqa-diamond

2. SuperGPQA —— GPQA 的 60× 扩展

  • 机构: ByteDance Doubao Seed + M-A-P
  • 发布: 2025-02(arXiv 2502.14739)
  • 规模: 26,529 题 / 285 学科 / 13 大学科 / 72 领域
  • 特点:
  • 每题平均 9.67 个选项(而不是 4 选项),更难碰运气
  • 42.33% 需要数学计算或严格推理
  • 人-LLM 协同过滤
  • 近百位学者半年时间标注
  • 覆盖: 不仅 STEM,还含轻工、农业、人文等长尾学科
  • links:
  • paper: https://arxiv.org/abs/2502.14739
  • repo: https://github.com/SuperGPQA/SuperGPQA
  • ByteDance 公告: https://seed.bytedance.com/en/blog/doubao-seed-team-launched-supergpqa-an-open-source-benchmark-test-set-covering-285-disciplines

3. Humanity's Last Exam (HLE)

  • 机构: Center for AI Safety(Scale / CAIS)
  • 发布: 2025-01(arXiv 2501.14249);已见 Nature
  • 规模: 2,500 题,多模态(14% 需看图)
  • 学科分布:
  • 数学 41%
  • 生物/医学 11%
  • CS/AI 10%
  • 物理 9%
  • 人文/社科 9%
  • 化学 7%
  • 工程 4%
  • 其他 9%
  • SOTA(2026-04):
  • Gemini 3.1 Pro Preview: 44.7%
  • GPT-5.4 (xhigh): 41.6%
  • Claude Mythos Preview:领先在 Scale 版
  • 特点:
  • 2026 最难的通用 benchmark,距饱和仍远
  • 前沿模型有严重过自信(uncalibrated overconfidence)
  • links:
  • paper: https://arxiv.org/abs/2501.14249
  • 官网: https://agi.safe.ai/
  • repo: https://github.com/centerforaisafety/hle
  • Scale leaderboard: https://labs.scale.com/leaderboard/humanitys_last_exam
  • Epoch: https://epoch.ai/benchmarks/hle
  • 对标本仓库: HLE 里的 bio/chem/医学子集,和 labbench2 的难度定位非常像——都是"前沿模型远未饱和"的科学题

4. CURIE —— Google DeepMind 的长上下文科学 benchmark

  • 全名: Scientific long-Context Understanding, Reasoning and Information Extraction
  • 机构: Google AI
  • 发布: ICLR 2025(arXiv 2503.13517)
  • 规模: 10 个任务 / 580 对 / 429 篇研究文档 / 6 个学科:
  • 材料科学
  • 理论凝聚态物理
  • 量子计算
  • 地理空间分析
  • 生物多样性
  • 蛋白质
  • 特点:
  • 平均输入 15,000 词,答案 954 词
  • 需要完整读论文、提取信息、跨概念聚合、代数操作、多模态、生成理论计算代码
  • SOTA:
  • Gemini Flash 2.0 / Claude-3 跨领域稳定最高
  • 最佳成绩仅 32%—— 还有巨大空间
  • GPT-4o、command-R+ 在蛋白序列子任务上惨败
  • links:
  • paper: https://arxiv.org/abs/2503.13517
  • repo: https://github.com/google/curie
  • Google blog: https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

5. FrontierMath —— 研究级数学

  • 机构: Epoch AI(+ 60 位数学家,其中 14 位 IMO 金牌、1 位 Fields 奖)
  • 发布: 2024-11(arXiv 2411.04872)
  • 规模:
  • 350 题总:Tier 1-3(本科到博后)+ Tier 4(研究级)50 题
  • Open Problems:专业数学家未解问题(程序化可验证)
  • 特点:
  • 领域:数论 / 实分析 / 代数几何 / 范畴论 等
  • 单题通常需研究者数小时;Tier 4 需数天
  • 未公开问题 + 自动验证 → 防训练数据污染
  • SOTA(最新可见报道):Tier 1-3 可达~50%,Tier 4 + Open Problems 仍 <5%
  • links:
  • paper: https://arxiv.org/abs/2411.04872
  • 官网: https://epoch.ai/frontiermath
  • Tier 4: https://epoch.ai/benchmarks/frontiermath-tier-4
  • 对标本仓库: 不直接对标(非 bio),但"程序化验证 + 非公开题 + 专家写" 这个设计哲学 是所有科学 benchmark 应该追求的参考。

6. MMLU / MMLU-Pro(参考)

  • GPQA / HLE 的"上一代",包含广泛学科含 bio/chem
  • 已饱和:2026 Claude Mythos 92.7,Gemini 3.1 Pro 92.6–93.6,差异进入误差
  • 不再推荐作主要 RL 信号,但可以作冷启动评测集

汇总

Benchmark 题数 SOTA 饱和度 对 labbench2 风格 RL 适用度
GPQA-Diamond 198 94.3% 中(学科重合) 冷启动
SuperGPQA 26,529 未见 冷启动++
HLE 2,500 44.7% 高(含 bio/chem) 主训练
CURIE 580 32% 高(长文科研) 主训练
FrontierMath 350 <50% 极低 低(非 bio) 评测
MMLU-Pro 12,032 93% 仅参考

选型建议

  • 冷启动:GPQA-Diamond + MedQA + SuperGPQA 的 MCQ 混合(rollout 极短,密集信号)
  • 主训练:HLE(科学部分)+ CURIE(长文档)——两者目前都未饱和
  • 对外可发的榜:GPQA-Diamond + HLE + SciCode + LAB-Bench,这几乎是 2026 年所有技术报告的标配组合
  • 不要单独依赖:GPQA 已饱和,单独用会很快 reward hacking