跳转至

04 · 医学 / 化学 / 材料 Benchmark

labbench2 / bixbench 之外的 AI4Science 领域——医学(饱和/半饱和)、化学(中度覆盖)、材料(基础设施薄)。


一、医学

1. MedQA

  • USMLE(美国医师执照考试) MCQ
  • 规模: ~12,723 题
  • SOTA(2026-04):
  • o4-mini-high: 95.2%
  • Gemini 2.5 Pro: 94.6%
  • Claude 3.7 Sonnet: 92.3%
  • 集成 log-opinion 可达 96.8%
  • 状态: 已饱和
  • 批评: 与真实临床表现相关性仅 Spearman ρ=0.59,忽略了患者沟通、纵向关怀等核心能力
  • links:
  • vals.ai leaderboard: https://www.vals.ai/benchmarks/medqa

2. HealthBench —— OpenAI 的医疗开放式评估

  • 机构: OpenAI
  • 发布: 2025-05(arXiv 2505.08775)
  • 规模:
  • 5,000 多轮健康对话
  • 48,562 条 rubric 评分维度
  • 262 位医师(60 国执业)参与
  • 主题: 应急转诊、临床数据处理、全球健康、不确定性响应、上下文追问、表达深度、专业沟通
  • SOTA:
  • o3: 60%(vs GPT-3.5 Turbo 16% → GPT-4o 32%)
  • HealthBench Hard: 32%
  • Claude 3.7 Sonnet、Gemini 2.5 Pro 落后 o3
  • 重要发现: 物理医师已无法显著改进 2025-04 模型给出的回答
  • links:
  • paper: https://arxiv.org/abs/2505.08775
  • OpenAI: https://openai.com/index/healthbench/
  • HF: https://huggingface.co/datasets/openai/healthbench

3. MedAgentBench —— EHR 虚拟环境 agent

  • 机构: Stanford ML Group
  • 发布: 2025-01(arXiv 2501.14654)
  • 规模:
  • 300 临床任务(10 类,医师撰写)
  • 100 份 patient profile(含 70 万数据元素)
  • FHIR-compliant 交互环境
  • 任务形态: agent 调用 FHIR API 完成真实病历工作
  • SOTA:
  • Claude 3.5 Sonnet v2: 69.67%(最佳)
  • 评测含 12 家 SOTA:Claude 3.5 Sonnet、o3-mini、GPT-4o、Gemini 2.0 Pro/Flash、Gemini 1.5 Pro、DeepSeek-V3、Qwen2.5、Llama 3.3、Gemma2、Mistral v0.3
  • links:
  • paper: https://arxiv.org/abs/2501.14654
  • 官网: https://stanfordmlgroup.github.io/projects/medagentbench/
  • repo: https://github.com/stanfordmlgroup/MedAgentBench

4. AgentClinic —— 多模态模拟临床

  • 发布: arXiv 2405.07960
  • 规模:
  • 9 专科 / 7 语言
  • 两个开放基准:
    • AgentClinic-NEJM(多模态图+对话)
    • AgentClinic-MedQA(纯对话)
  • 任务形态: 多轮患者交互 + 不完全信息 + 工具调用,最后诊断
  • 关键发现:
  • 把 MedQA 题塞进 sequential decision 形式后,准确率会掉到原来的 1/10 以下
  • Claude 3.5 家族在大多数设定下领先
  • links:
  • paper: https://arxiv.org/abs/2405.07960
  • 官网: https://agentclinic.github.io/

二、化学

1. ChemBench —— 化学综合 benchmark

  • 机构: LamaLab(Jablonka 组)
  • 特点:
  • 模块化、可扩展
  • 支持 MCQ + 浮点(科学计数法)+ 多种抽取方法
  • 通过 LiteLLM 接几乎所有模型;支持 VLM
  • 评测范围: GPT-4、Claude 家族、开源模型
  • links:
  • 官网 + 排行: https://lamalab-org.github.io/chembench/
  • repo: https://github.com/lamalab-org/chembench

2. MaCBench —— 多模态化学材料

  • 特点: 图表 + 文本的化学材料多模态 benchmark
  • 参考: https://hunterheidenreich.com/notes/computational-chemistry/llms-for-chemistry/macbench-multimodal-chemistry-benchmark/

三、材料

1. MatBench Discovery —— 晶体稳定性预筛

  • 机构: Materials Project / UCB
  • 发布: Nature Machine Intelligence 2025
  • 特点:
  • ML 作为 DFT 前的预筛
  • 指标:识别"稳定无机晶体"的召回 / 精度
  • SOTA: Universal Interatomic Potentials(非 LLM 家族最佳)
  • links:
  • 官网: https://matbench-discovery.materialsproject.org/
  • paper (Nature MI): https://www.nature.com/articles/s42256-025-01055-1

2. LLM4Mat-Bench —— LLM 做材料性质预测

  • 发布: arXiv 2411.00177v3
  • 规模:
  • ~1.9M 晶体结构
  • 45 个性质
  • 从 10 个公开数据源
  • 输入形态: CIF / 晶体文本描述 / 组分式
  • 发现: 即便规模更大的新一代 LLM 对材料性质预测的提升有限——这是一个 LLM 被明显碾压于专用 ML 的领域
  • links:
  • paper: https://arxiv.org/html/2411.00177v3

3. MatBench(传统 ML benchmark)

  • 官网: https://matbench.materialsproject.org/
  • 定位: 材料 ML 算法排行榜(传统 ML,不是 LLM)

四、蛋白(交叉)

ProteinGym 详见 01_biology_wetlab.md#10-proteingym


汇总

医学

Benchmark 规模 任务 SOTA 饱和度
MedQA 12,723 MCQ 95.2%
HealthBench 5,000 多轮 + rubric o3 60% / Hard 32%
MedAgentBench 300 EHR API agent Claude 3.5 S v2 69.67%
AgentClinic 9 科 7 语 多轮交互诊断 Claude 3.5 领先

化学

Benchmark 任务 前沿模型覆盖
ChemBench MCQ+数值+多模态 GPT-4、Claude 家族
MaCBench 多模态

材料

Benchmark 任务 对 LLM 友好度
MatBench Discovery 晶体稳定性 ML 低(专用 ML 领先)
LLM4Mat-Bench 45 性质预测 低(LLM 被碾压)
MatBench(传统) ML 算法排行 非 LLM

选型建议

  • 医学:
  • 冷启动:MedQA(饱和,快速过)
  • 主训练:MedAgentBench + AgentClinic + HealthBench(三者互补:API / 多轮 / 评分)
  • 化学: 只有 ChemBench 可用,且前沿模型覆盖较少——基础设施相对薄
  • 材料: 不推荐 做 LLM RL 信号源——这是专用 ML(GNN、IP)统治的领域,LLM 本身 value 低