AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。
给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。
英伟达GPU被白帽黑客发现严重漏洞,通过Rowhammer攻击使大模型准确率直接降至0.02%,影响自动驾驶和医疗AI等应用。英伟达建议开启ECC防护措施但会导致12%内存带宽损失。
五个项目介绍:Let Them Talk(语音驱动多人对话生成)、MemoryOS(个性化AI代理内存操作系统)、Gemini MCP Server for Claude Code(Claude增强服务器)、Spy Search(开源智能搜索框架)和ZIN MCP Client(轻量级CLI MCP客户端),涵盖多模态内容生成、AI交互控制、代码审查与分析等多个领域。
研究揭示越擅长数学推理的模型反而更难完全遵守指令。这项发现强调了AI在处理复杂任务时的’聪明’与’听话’之间的权衡关系,未来有望构建既能深入思考又能严格守规矩的大模型。