04 · 医学 / 化学 / 材料 Benchmark
labbench2 / bixbench 之外的 AI4Science 领域——医学(饱和/半饱和)、化学(中度覆盖)、材料(基础设施薄)。
一、医学
1. MedQA
- USMLE(美国医师执照考试) MCQ
- 规模: ~12,723 题
- SOTA(2026-04):
- o4-mini-high: 95.2%
- Gemini 2.5 Pro: 94.6%
- Claude 3.7 Sonnet: 92.3%
- 集成 log-opinion 可达 96.8%
- 状态: 已饱和
- 批评: 与真实临床表现相关性仅 Spearman ρ=0.59,忽略了患者沟通、纵向关怀等核心能力
- links:
- vals.ai leaderboard: https://www.vals.ai/benchmarks/medqa
2. HealthBench —— OpenAI 的医疗开放式评估
- 机构: OpenAI
- 发布: 2025-05(arXiv 2505.08775)
- 规模:
- 5,000 多轮健康对话
- 48,562 条 rubric 评分维度
- 262 位医师(60 国执业)参与
- 主题: 应急转诊、临床数据处理、全球健康、不确定性响应、上下文追问、表达深度、专业沟通
- SOTA:
- o3: 60%(vs GPT-3.5 Turbo 16% → GPT-4o 32%)
- HealthBench Hard: 32%
- Claude 3.7 Sonnet、Gemini 2.5 Pro 落后 o3
- 重要发现: 物理医师已无法显著改进 2025-04 模型给出的回答
- links:
- paper: https://arxiv.org/abs/2505.08775
- OpenAI: https://openai.com/index/healthbench/
- HF: https://huggingface.co/datasets/openai/healthbench
3. MedAgentBench —— EHR 虚拟环境 agent
- 机构: Stanford ML Group
- 发布: 2025-01(arXiv 2501.14654)
- 规模:
- 300 临床任务(10 类,医师撰写)
- 100 份 patient profile(含 70 万数据元素)
- FHIR-compliant 交互环境
- 任务形态: agent 调用 FHIR API 完成真实病历工作
- SOTA:
- Claude 3.5 Sonnet v2: 69.67%(最佳)
- 评测含 12 家 SOTA:Claude 3.5 Sonnet、o3-mini、GPT-4o、Gemini 2.0 Pro/Flash、Gemini 1.5 Pro、DeepSeek-V3、Qwen2.5、Llama 3.3、Gemma2、Mistral v0.3
- links:
- paper: https://arxiv.org/abs/2501.14654
- 官网: https://stanfordmlgroup.github.io/projects/medagentbench/
- repo: https://github.com/stanfordmlgroup/MedAgentBench
4. AgentClinic —— 多模态模拟临床
- 发布: arXiv 2405.07960
- 规模:
- 9 专科 / 7 语言
- 两个开放基准:
- AgentClinic-NEJM(多模态图+对话)
- AgentClinic-MedQA(纯对话)
- 任务形态: 多轮患者交互 + 不完全信息 + 工具调用,最后诊断
- 关键发现:
- 把 MedQA 题塞进 sequential decision 形式后,准确率会掉到原来的 1/10 以下
- Claude 3.5 家族在大多数设定下领先
- links:
- paper: https://arxiv.org/abs/2405.07960
- 官网: https://agentclinic.github.io/
二、化学
1. ChemBench —— 化学综合 benchmark
- 机构: LamaLab(Jablonka 组)
- 特点:
- 模块化、可扩展
- 支持 MCQ + 浮点(科学计数法)+ 多种抽取方法
- 通过 LiteLLM 接几乎所有模型;支持 VLM
- 评测范围: GPT-4、Claude 家族、开源模型
- links:
- 官网 + 排行: https://lamalab-org.github.io/chembench/
- repo: https://github.com/lamalab-org/chembench
2. MaCBench —— 多模态化学材料
- 特点: 图表 + 文本的化学材料多模态 benchmark
- 参考: https://hunterheidenreich.com/notes/computational-chemistry/llms-for-chemistry/macbench-multimodal-chemistry-benchmark/
三、材料
1. MatBench Discovery —— 晶体稳定性预筛
- 机构: Materials Project / UCB
- 发布: Nature Machine Intelligence 2025
- 特点:
- ML 作为 DFT 前的预筛
- 指标:识别"稳定无机晶体"的召回 / 精度
- SOTA: Universal Interatomic Potentials(非 LLM 家族最佳)
- links:
- 官网: https://matbench-discovery.materialsproject.org/
- paper (Nature MI): https://www.nature.com/articles/s42256-025-01055-1
2. LLM4Mat-Bench —— LLM 做材料性质预测
- 发布: arXiv 2411.00177v3
- 规模:
- ~1.9M 晶体结构
- 45 个性质
- 从 10 个公开数据源
- 输入形态: CIF / 晶体文本描述 / 组分式
- 发现: 即便规模更大的新一代 LLM 对材料性质预测的提升有限——这是一个 LLM 被明显碾压于专用 ML 的领域
- links:
- paper: https://arxiv.org/html/2411.00177v3
3. MatBench(传统 ML benchmark)
- 官网: https://matbench.materialsproject.org/
- 定位: 材料 ML 算法排行榜(传统 ML,不是 LLM)
四、蛋白(交叉)
ProteinGym 详见 01_biology_wetlab.md#10-proteingym。
汇总
医学
| Benchmark |
规模 |
任务 |
SOTA |
饱和度 |
| MedQA |
12,723 |
MCQ |
95.2% |
高 |
| HealthBench |
5,000 |
多轮 + rubric |
o3 60% / Hard 32% |
中 |
| MedAgentBench |
300 |
EHR API agent |
Claude 3.5 S v2 69.67% |
中 |
| AgentClinic |
9 科 7 语 |
多轮交互诊断 |
Claude 3.5 领先 |
低 |
化学
| Benchmark |
任务 |
前沿模型覆盖 |
| ChemBench |
MCQ+数值+多模态 |
GPT-4、Claude 家族 |
| MaCBench |
多模态 |
— |
材料
| Benchmark |
任务 |
对 LLM 友好度 |
| MatBench Discovery |
晶体稳定性 ML |
低(专用 ML 领先) |
| LLM4Mat-Bench |
45 性质预测 |
低(LLM 被碾压) |
| MatBench(传统) |
ML 算法排行 |
非 LLM |
选型建议
- 医学:
- 冷启动:MedQA(饱和,快速过)
- 主训练:MedAgentBench + AgentClinic + HealthBench(三者互补:API / 多轮 / 评分)
- 化学: 只有 ChemBench 可用,且前沿模型覆盖较少——基础设施相对薄
- 材料: 不推荐 做 LLM RL 信号源——这是专用 ML(GNN、IP)统治的领域,LLM 本身 value 低