AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%

给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。