02 · 科学 Q&A 与推理 Benchmark¶
通用科学推理类 benchmark,适合作为 Agentic RL 冷启动期的密集 0-1 信号源,但要警惕GPQA/MedQA 级别已经饱和的问题。
1. GPQA / GPQA-Diamond¶
- 全名: Graduate-Level Google-Proof Q&A
- 机构: NYU + Cohere 等
- 发布: 2023-11(arXiv 2311.12022)
- 规模: 448 题总 / 198 题 Diamond(顶质量子集)
- 学科: 物理 + 化学 + 生物
- 特点: 专家写、非专家即使能上网也只有 ~34%,"Google-proof"
- SOTA(2026-04):
- Gemini 3.1 Pro Preview: 94.3%
- GPT-5.4: 92.0%
- GPT-5.3 Codex: 91.5%
- Claude Opus 4.6: 91%
- 人类基线: PhD domain expert ~70%
- 状态: 事实上已饱和,从 2024-09 o1 的 +7 超人到 2026-02 Gemini 3.1 Pro 的 +24 超人
- links:
- paper: https://openreview.net/pdf?id=Ti67584b98
- Epoch leaderboard: https://epoch.ai/benchmarks/gpqa-diamond
- Artificial Analysis: https://artificialanalysis.ai/evaluations/gpqa-diamond
2. SuperGPQA —— GPQA 的 60× 扩展¶
- 机构: ByteDance Doubao Seed + M-A-P
- 发布: 2025-02(arXiv 2502.14739)
- 规模: 26,529 题 / 285 学科 / 13 大学科 / 72 领域
- 特点:
- 每题平均 9.67 个选项(而不是 4 选项),更难碰运气
- 42.33% 需要数学计算或严格推理
- 人-LLM 协同过滤
- 近百位学者半年时间标注
- 覆盖: 不仅 STEM,还含轻工、农业、人文等长尾学科
- links:
- paper: https://arxiv.org/abs/2502.14739
- repo: https://github.com/SuperGPQA/SuperGPQA
- ByteDance 公告: https://seed.bytedance.com/en/blog/doubao-seed-team-launched-supergpqa-an-open-source-benchmark-test-set-covering-285-disciplines
3. Humanity's Last Exam (HLE)¶
- 机构: Center for AI Safety(Scale / CAIS)
- 发布: 2025-01(arXiv 2501.14249);已见 Nature
- 规模: 2,500 题,多模态(14% 需看图)
- 学科分布:
- 数学 41%
- 生物/医学 11%
- CS/AI 10%
- 物理 9%
- 人文/社科 9%
- 化学 7%
- 工程 4%
- 其他 9%
- SOTA(2026-04):
- Gemini 3.1 Pro Preview: 44.7%
- GPT-5.4 (xhigh): 41.6%
- Claude Mythos Preview:领先在 Scale 版
- 特点:
- 2026 最难的通用 benchmark,距饱和仍远
- 前沿模型有严重过自信(uncalibrated overconfidence)
- links:
- paper: https://arxiv.org/abs/2501.14249
- 官网: https://agi.safe.ai/
- repo: https://github.com/centerforaisafety/hle
- Scale leaderboard: https://labs.scale.com/leaderboard/humanitys_last_exam
- Epoch: https://epoch.ai/benchmarks/hle
- 对标本仓库: HLE 里的 bio/chem/医学子集,和 labbench2 的难度定位非常像——都是"前沿模型远未饱和"的科学题。
4. CURIE —— Google DeepMind 的长上下文科学 benchmark¶
- 全名: Scientific long-Context Understanding, Reasoning and Information Extraction
- 机构: Google AI
- 发布: ICLR 2025(arXiv 2503.13517)
- 规模: 10 个任务 / 580 对 / 429 篇研究文档 / 6 个学科:
- 材料科学
- 理论凝聚态物理
- 量子计算
- 地理空间分析
- 生物多样性
- 蛋白质
- 特点:
- 平均输入 15,000 词,答案 954 词
- 需要完整读论文、提取信息、跨概念聚合、代数操作、多模态、生成理论计算代码
- SOTA:
- Gemini Flash 2.0 / Claude-3 跨领域稳定最高
- 最佳成绩仅 32%—— 还有巨大空间
- GPT-4o、command-R+ 在蛋白序列子任务上惨败
- links:
- paper: https://arxiv.org/abs/2503.13517
- repo: https://github.com/google/curie
- Google blog: https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/
5. FrontierMath —— 研究级数学¶
- 机构: Epoch AI(+ 60 位数学家,其中 14 位 IMO 金牌、1 位 Fields 奖)
- 发布: 2024-11(arXiv 2411.04872)
- 规模:
- 350 题总:Tier 1-3(本科到博后)+ Tier 4(研究级)50 题
- Open Problems:专业数学家未解问题(程序化可验证)
- 特点:
- 领域:数论 / 实分析 / 代数几何 / 范畴论 等
- 单题通常需研究者数小时;Tier 4 需数天
- 未公开问题 + 自动验证 → 防训练数据污染
- SOTA(最新可见报道):Tier 1-3 可达~50%,Tier 4 + Open Problems 仍 <5%
- links:
- paper: https://arxiv.org/abs/2411.04872
- 官网: https://epoch.ai/frontiermath
- Tier 4: https://epoch.ai/benchmarks/frontiermath-tier-4
- 对标本仓库: 不直接对标(非 bio),但"程序化验证 + 非公开题 + 专家写" 这个设计哲学 是所有科学 benchmark 应该追求的参考。
6. MMLU / MMLU-Pro(参考)¶
- GPQA / HLE 的"上一代",包含广泛学科含 bio/chem
- 已饱和:2026 Claude Mythos 92.7,Gemini 3.1 Pro 92.6–93.6,差异进入误差
- 不再推荐作主要 RL 信号,但可以作冷启动评测集
汇总¶
| Benchmark | 题数 | SOTA | 饱和度 | 对 labbench2 风格 | RL 适用度 |
|---|---|---|---|---|---|
| GPQA-Diamond | 198 | 94.3% | 高 | 中(学科重合) | 冷启动 |
| SuperGPQA | 26,529 | 未见 | 低 | 中 | 冷启动++ |
| HLE | 2,500 | 44.7% | 低 | 高(含 bio/chem) | 主训练 |
| CURIE | 580 | 32% | 低 | 高(长文科研) | 主训练 |
| FrontierMath | 350 | <50% | 极低 | 低(非 bio) | 评测 |
| MMLU-Pro | 12,032 | 93% | 高 | 低 | 仅参考 |
选型建议¶
- 冷启动:GPQA-Diamond + MedQA + SuperGPQA 的 MCQ 混合(rollout 极短,密集信号)
- 主训练:HLE(科学部分)+ CURIE(长文档)——两者目前都未饱和
- 对外可发的榜:GPQA-Diamond + HLE + SciCode + LAB-Bench,这几乎是 2026 年所有技术报告的标配组合
- 不要单独依赖:GPQA 已饱和,单独用会很快 reward hacking