五一大瓜!大模型顶级排行榜被指系统性“造假”,官方紧急回应,Karpathy也下场质疑
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
上海交通大学洪亮教授团队发布VenusMutHub——首个针对真实应用场景的蛋白质突变小样本数据集及评测标准。该研究发表在Acta Pharmaceutica Sinica B期刊上,揭示了现有AI模型在实际应用中的局限性,并提出改进方案。