29.1% 归档 - 每时AI

AI也怕压力大？REST多题评测挑战推理极限，DeepSeek性能暴跌近30%

2025年7月25日12时作者 PaperWeekly

给 AI 一场压力测试，结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题，揭示了大模型在实际应用中的不足之处，并提出新的评测方法来提升评估效果。

2025年7月19日16时作者量子位

给大模型来一场‘压力测试’，研究团队设计REST框架，在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估，揭示了当前评测方法的局限性，并提出了新的评测数据构建范式。