基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 2025年5月29日16时 作者 量子位 过明确的 “长度指令” ? 比如,“写一篇10,000字的长文,详细分析某个议题。”看似简单的要求,
微软原WizardLM团队:代码大模型WarriorCoder,性能新SOTA 2025年3月2日12时 作者 机器之心 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈 2025年2月26日12时 作者 量子位 显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集