AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%

给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。

语音驱动的多人对话视频生成MultiTalk,AI智能体个性化记忆操作系统

五个项目介绍:Let Them Talk(语音驱动多人对话生成)、MemoryOS(个性化AI代理内存操作系统)、Gemini MCP Server for Claude Code(Claude增强服务器)、Spy Search(开源智能搜索框架)和ZIN MCP Client(轻量级CLI MCP客户端),涵盖多模态内容生成、AI交互控制、代码审查与分析等多个领域。

推理能力飙升,指令遵循暴跌?MathIF基准揭示大模型“服从性漏洞”

研究揭示越擅长数学推理的模型反而更难完全遵守指令。这项发现强调了AI在处理复杂任务时的’聪明’与’听话’之间的权衡关系,未来有望构建既能深入思考又能严格守规矩的大模型。