跳转至

DearJarvis · 研究报告

04 · 医学 / 化学 / 材料 Benchmark

04 · 医学 / 化学 / 材料 Benchmark¶

labbench2 / bixbench 之外的 AI4Science 领域——医学(饱和/半饱和)、化学(中度覆盖)、材料(基础设施薄)。

一、医学¶

1. MedQA¶

USMLE(美国医师执照考试) MCQ
规模: ~12,723 题
SOTA(2026-04):
o4-mini-high: 95.2%
Gemini 2.5 Pro: 94.6%
Claude 3.7 Sonnet: 92.3%
集成 log-opinion 可达 96.8%
状态: 已饱和
批评: 与真实临床表现相关性仅 Spearman ρ=0.59,忽略了患者沟通、纵向关怀等核心能力
links:
vals.ai leaderboard: https://www.vals.ai/benchmarks/medqa

2. HealthBench —— OpenAI 的医疗开放式评估¶

机构: OpenAI
发布: 2025-05(arXiv 2505.08775)
规模:
5,000 多轮健康对话
48,562 条 rubric 评分维度
262 位医师(60 国执业)参与
主题: 应急转诊、临床数据处理、全球健康、不确定性响应、上下文追问、表达深度、专业沟通
SOTA:
o3: 60%(vs GPT-3.5 Turbo 16% → GPT-4o 32%)
HealthBench Hard: 32%
Claude 3.7 Sonnet、Gemini 2.5 Pro 落后 o3
重要发现: 物理医师已无法显著改进 2025-04 模型给出的回答
links:
paper: https://arxiv.org/abs/2505.08775
OpenAI: https://openai.com/index/healthbench/
HF: https://huggingface.co/datasets/openai/healthbench

3. MedAgentBench —— EHR 虚拟环境 agent¶

机构: Stanford ML Group
发布: 2025-01(arXiv 2501.14654)
规模:
300 临床任务(10 类,医师撰写)
100 份 patient profile(含 70 万数据元素)
FHIR-compliant 交互环境
任务形态: agent 调用 FHIR API 完成真实病历工作
SOTA:
Claude 3.5 Sonnet v2: 69.67%(最佳)
评测含 12 家 SOTA:Claude 3.5 Sonnet、o3-mini、GPT-4o、Gemini 2.0 Pro/Flash、Gemini 1.5 Pro、DeepSeek-V3、Qwen2.5、Llama 3.3、Gemma2、Mistral v0.3
links:
paper: https://arxiv.org/abs/2501.14654
官网: https://stanfordmlgroup.github.io/projects/medagentbench/
repo: https://github.com/stanfordmlgroup/MedAgentBench

4. AgentClinic —— 多模态模拟临床¶

发布: arXiv 2405.07960
规模:
9 专科 / 7 语言
两个开放基准:
- AgentClinic-NEJM(多模态图+对话)
- AgentClinic-MedQA(纯对话)
任务形态: 多轮患者交互 + 不完全信息 + 工具调用,最后诊断
关键发现:
把 MedQA 题塞进 sequential decision 形式后,准确率会掉到原来的 1/10 以下
Claude 3.5 家族在大多数设定下领先
links:
paper: https://arxiv.org/abs/2405.07960
官网: https://agentclinic.github.io/

二、化学¶

1. ChemBench —— 化学综合 benchmark¶

机构: LamaLab(Jablonka 组)
特点:
模块化、可扩展
支持 MCQ + 浮点(科学计数法)+ 多种抽取方法
通过 LiteLLM 接几乎所有模型;支持 VLM
评测范围: GPT-4、Claude 家族、开源模型
links:
官网 + 排行: https://lamalab-org.github.io/chembench/
repo: https://github.com/lamalab-org/chembench

2. MaCBench —— 多模态化学材料¶

特点: 图表 + 文本的化学材料多模态 benchmark
参考: https://hunterheidenreich.com/notes/computational-chemistry/llms-for-chemistry/macbench-multimodal-chemistry-benchmark/

三、材料¶

1. MatBench Discovery —— 晶体稳定性预筛¶

机构: Materials Project / UCB
发布: Nature Machine Intelligence 2025
特点:
ML 作为 DFT 前的预筛
指标:识别"稳定无机晶体"的召回 / 精度
SOTA: Universal Interatomic Potentials(非 LLM 家族最佳)
links:
官网: https://matbench-discovery.materialsproject.org/
paper (Nature MI): https://www.nature.com/articles/s42256-025-01055-1

2. LLM4Mat-Bench —— LLM 做材料性质预测¶

发布: arXiv 2411.00177v3
规模:
~1.9M 晶体结构
45 个性质
从 10 个公开数据源
输入形态: CIF / 晶体文本描述 / 组分式
发现: 即便规模更大的新一代 LLM 对材料性质预测的提升有限——这是一个 LLM 被明显碾压于专用 ML 的领域
links:
paper: https://arxiv.org/html/2411.00177v3

3. MatBench(传统 ML benchmark)¶

官网: https://matbench.materialsproject.org/
定位: 材料 ML 算法排行榜(传统 ML,不是 LLM)

四、蛋白(交叉)¶

ProteinGym 详见 01_biology_wetlab.md#10-proteingym。

汇总¶

医学¶

Benchmark	规模	任务	SOTA	饱和度
MedQA	12,723	MCQ	95.2%	高
HealthBench	5,000	多轮 + rubric	o3 60% / Hard 32%	中
MedAgentBench	300	EHR API agent	Claude 3.5 S v2 69.67%	中
AgentClinic	9 科 7 语	多轮交互诊断	Claude 3.5 领先	低

化学¶

Benchmark	任务	前沿模型覆盖
ChemBench	MCQ+数值+多模态	GPT-4、Claude 家族
MaCBench	多模态	—

材料¶

Benchmark	任务	对 LLM 友好度
MatBench Discovery	晶体稳定性 ML	低(专用 ML 领先)
LLM4Mat-Bench	45 性质预测	低(LLM 被碾压)
MatBench(传统)	ML 算法排行	非 LLM

选型建议¶

医学:
冷启动:MedQA(饱和,快速过)
主训练:MedAgentBench + AgentClinic + HealthBench(三者互补:API / 多轮 / 评分)
化学: 只有 ChemBench 可用,且前沿模型覆盖较少——基础设施相对薄
材料: 不推荐 做 LLM RL 信号源——这是专用 ML(GNN、IP)统治的领域,LLM 本身 value 低