AI“压力面”,DeepSeek性能暴跌近30% 清华&上海AI Lab

给大模型来一场‘压力测试’,研究团队设计REST框架,在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估,揭示了当前评测方法的局限性,并提出了新的评测数据构建范式。

Manus首次揭秘:Agent的关键在上下文工程

文章介绍了Manus团队通过巧妙的上下文工程构建成功AI Agent的经验。关键点包括围绕KV缓存设计、使用屏蔽工具而非删除、将文件系统视为上下文扩展、利用反复回顾机制保持目标清晰、保留错误信息以提升能力,并避免Few-shot误导。