评估体系归档

AI实力榜大洗牌！OpenAI谷歌强势领跑，Anthropic节节败退

2025年5月17日8时作者新智元

4o称霸文本生成，谷歌的Gemini 2.5 Pro领跑推理，Kling在视频领域异军突起，企业如何

2025年3月12日16时作者量子位

来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。
它就是子曰

2025年2月26日8时作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。