HealthBench 归档

o3完爆人类医生，OpenAI基准直击AGI！

2025年5月13日16时作者新智元

联手60个国家262名执业医生，树立新的「AGI标志性用例」。OpenAI o3碾压Grok 3和G

2025年5月13日11时作者 AI寒武纪

力的全新基准测试
HealthBench 由 262 位在 60 个国家/地区执业的医生合作打造，

2025年5月13日8时作者 AIGC开放社区

今天凌晨，OpenAI开源了面向医疗大模型测试的HealthBench。该测试集由262名医生打造，包含5000段对话，采用多轮对话形式，显著提升了大模型在医疗领域的表现。HealthBench展示了7个主题和5个轴来评估模型性能，包括准确性、完整性等。