02 · 科学 Q&A 与推理 Benchmark¶

通用科学推理类 benchmark,适合作为 Agentic RL 冷启动期的密集 0-1 信号源,但要警惕GPQA/MedQA 级别已经饱和的问题。

1. GPQA / GPQA-Diamond¶

机构: ByteDance Doubao Seed + M-A-P
发布: 2025-02(arXiv 2502.14739)
规模: 26,529 题 / 285 学科 / 13 大学科 / 72 领域
特点:
每题平均 9.67 个选项(而不是 4 选项),更难碰运气
42.33% 需要数学计算或严格推理
人-LLM 协同过滤
近百位学者半年时间标注
覆盖: 不仅 STEM,还含轻工、农业、人文等长尾学科
links:
paper: https://arxiv.org/abs/2502.14739
repo: https://github.com/SuperGPQA/SuperGPQA
ByteDance 公告: https://seed.bytedance.com/en/blog/doubao-seed-team-launched-supergpqa-an-open-source-benchmark-test-set-covering-285-disciplines

全名: Scientific long-Context Understanding, Reasoning and Information Extraction
机构: Google AI
发布: ICLR 2025(arXiv 2503.13517)
规模: 10 个任务 / 580 对 / 429 篇研究文档 / 6 个学科:
材料科学
理论凝聚态物理
量子计算
地理空间分析
生物多样性
蛋白质
特点:
平均输入 15,000 词,答案 954 词
需要完整读论文、提取信息、跨概念聚合、代数操作、多模态、生成理论计算代码
SOTA:
Gemini Flash 2.0 / Claude-3 跨领域稳定最高
最佳成绩仅 32%—— 还有巨大空间
GPT-4o、command-R+ 在蛋白序列子任务上惨败
links:
paper: https://arxiv.org/abs/2503.13517
repo: https://github.com/google/curie
Google blog: https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

机构: Epoch AI(+ 60 位数学家,其中 14 位 IMO 金牌、1 位 Fields 奖)
发布: 2024-11(arXiv 2411.04872)
规模:
350 题总:Tier 1-3(本科到博后)+ Tier 4(研究级)50 题
Open Problems:专业数学家未解问题(程序化可验证)
特点:
领域:数论 / 实分析 / 代数几何 / 范畴论等
单题通常需研究者数小时;Tier 4 需数天
未公开问题 + 自动验证 → 防训练数据污染
SOTA(最新可见报道):Tier 1-3 可达~50%,Tier 4 + Open Problems 仍 <5%
links:
paper: https://arxiv.org/abs/2411.04872
官网: https://epoch.ai/frontiermath
Tier 4: https://epoch.ai/benchmarks/frontiermath-tier-4
对标本仓库: 不直接对标(非 bio),但"程序化验证 + 非公开题 + 专家写" 这个设计哲学 是所有科学 benchmark 应该追求的参考。

Benchmark	题数	SOTA	饱和度	对 labbench2 风格	RL 适用度
GPQA-Diamond	198	94.3%	高	中(学科重合)	冷启动
SuperGPQA	26,529	未见	低	中	冷启动++
HLE	2,500	44.7%	低	高(含 bio/chem)	主训练
CURIE	580	32%	低	高(长文科研)	主训练
FrontierMath	350	<50%	极低	低(非 bio)	评测
MMLU-Pro	12,032	93%	高	低	仅参考