真实应用场景归档

五一大瓜！大模型顶级排行榜被指系统性“造假”，官方紧急回应，Karpathy也下场质疑

2025年5月1日8时作者 AI寒武纪

本文分析了LM Arena排行榜存在问题，并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出，模型可能专门针对Arena分数进行优化，而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行，涉及多个领域和场景。

蛋白质突变工程 AI 模型评测新基准，上海交大洪亮教授团队发布 VenusMutHub

2025年3月18日23时作者 HyperAI超神经

上海交通大学洪亮教授团队发布VenusMutHub——首个针对真实应用场景的蛋白质突变小样本数据集及评测标准。该研究发表在Acta Pharmaceutica Sinica B期刊上，揭示了现有AI模型在实际应用中的局限性，并提出改进方案。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28