元评估归档 - 每时AI

专业医生远不如AI模型？OpenAI推出医疗开源测试基准HealthBench，o3表现最强

2025年5月13日11时作者 AI寒武纪

力的全新基准测试
HealthBench 由 262 位在 60 个国家/地区执业的医生合作打造，