最佳N选1 归档 - 每时AI

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

2025年5月2日16时作者量子位

大模型竞技场存在系统问题，包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出，这可能导致排行榜结果失真，并建议改进策略以提高其可信度。