AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。
给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。
给大模型来一场‘压力测试’,研究团队设计REST框架,在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估,揭示了当前评测方法的局限性,并提出了新的评测数据构建范式。