仅靠 AI 就比独立医生好 4 倍?OpenAI HealthBench 数据震撼,o3 太强了!
OpenAI发布HealthBench医疗AI评估新基准,通过全球60国262名医生合作创建庞大数据库,旨在推动医疗AI发展。最新模型o3表现优异,接近人类医生水平;同时揭示AI在某些任务上超越了部分医生的表现。
OpenAI发布HealthBench医疗AI评估新基准,通过全球60国262名医生合作创建庞大数据库,旨在推动医疗AI发展。最新模型o3表现优异,接近人类医生水平;同时揭示AI在某些任务上超越了部分医生的表现。
今天凌晨,OpenAI开源了面向医疗大模型测试的HealthBench。该测试集由262名医生打造,包含5000段对话,采用多轮对话形式,显著提升了大模型在医疗领域的表现。HealthBench展示了7个主题和5个轴来评估模型性能,包括准确性、完整性等。