AI“压力面”,DeepSeek性能暴跌近30% 清华&上海AI Lab
给大模型来一场‘压力测试’,研究团队设计REST框架,在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估,揭示了当前评测方法的局限性,并提出了新的评测数据构建范式。
news
给大模型来一场‘压力测试’,研究团队设计REST框架,在一个多任务并行推理场景中发现顶级模型的表现大幅缩水。通过上下文预算分配、跨问题干扰抵抗和动态认知负载管理等能力评估,揭示了当前评测方法的局限性,并提出了新的评测数据构建范式。
PhysRig是UIUC与Stability AI联合提出的一种新的角色动画技术,通过引入可微分物理模拟替代传统LBS方法,显著提升了角色动画的真实感,解决了体积丢失和变形伪影问题。
AI编程工具初创公司Windsurf被谷歌挖走的消息引爆了行业,谷歌开出双倍薪资和24亿美元许可协议,并成功引走了大量员工。
OpenAI的神秘模型o3-alpha在编程竞赛中表现出色,疑似夺得亚军。它展示了强大的编码能力和物理模拟能力,并击败了人类选手Psyho。
文章介绍了Manus团队通过巧妙的上下文工程构建成功AI Agent的经验。关键点包括围绕KV缓存设计、使用屏蔽工具而非删除、将文件系统视为上下文扩展、利用反复回顾机制保持目标清晰、保留错误信息以提升能力,并避免Few-shot误导。