复杂任务归档 - 第3页共5页

ICLR 2025 Spotlight ｜合成数据伪装术 vs 大模型火眼金睛，中大&上海AI Lab提出合成检测基准LOKI

2025年4月2日8时作者极市干货

中山大学联合上海人工智能实验室提出了LOKI，这是一个面向多模态合成数据检测的全新测试基准，涵盖图

2025年4月1日23时作者机器之心

年最热门的话题之一。在过去的几周里，研究人员推出了许多改进推理的新策略，包括扩展简单测试 – 时间规

MLNLP社区是国内外知名的机器学习与自然语言处理社区。本文系统探究了零样本CoT对推理大模型的影响，通过实验发现CoT提示增强了RLLMs的性能并抑制了过度反思，提出了关于提示设计和策略选择的研究方向。

2025年3月25日11时作者智东西

DeepSeek上线新版本DeepSeek-V3-0324，参数增加至6850亿，性能提升显著。新版模型允许商用和模型蒸馏等行为，并在代码、数学等方面表现出色，引发网友期待R2和V4的发布。

2025年3月25日8时作者 AI寒武纪

Claude 模型新增 ‘think tool’ 功能，可在生成答案过程中暂停思考并整理信息。Anthropic 官方称其特别适合处理信息过载、规则繁琐及步步为营等复杂场景。通过 JSON 配置简单集成到应用中，并在 T-Bench 和 SWE-Bench 测试中证明了显著提升性能。

2025年3月23日16时作者机器之心

世界中，很多任务很复杂，需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能，通常需要直接在多

2025年3月19日16时作者机器人大讲堂

物流等领域对机器人移动操作能力提出了迫切需求，但
要想机器人在非结构化环境中执行如协助人们的日常生活

2025年3月18日16时作者 AI寒武纪

Claude 3.7 Max 是 Cursor 推出的新模型，专为硬核开发者设计。它具有更高的上下文窗口、更多的工具调用限制以及更智能的代码理解和生成能力，价格按用量计费。适合处理复杂代码项目和精细代码维护的开发者。

2025年3月9日23时作者 PaperWeekly

最佳方案吗？
2024 年 9 月，OpenAI 携 o1 模型吹响推理革命的号角，以惊人的思维链长