压力测试归档

AI也怕压力大？REST多题评测挑战推理极限，DeepSeek性能暴跌近30%

2025年7月25日12时作者 PaperWeekly

给 AI 一场压力测试，结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题，揭示了大模型在实际应用中的不足之处，并提出新的评测方法来提升评估效果。