复杂任务
字节版“Manus”来了
字节跳动新推出Agent产品“扣子空间”,支持无线裂变邀请码获取。用户可通过探索和规划模式生成网页、网页版吉他、天气预报网站等任务,并添加MCP扩展插件。目前处于内测阶段,存在一些小问题,但任务拆解与多模态输出超越多数竞品。
智商136,o3王者归来!变身福尔摩斯「AI查房」,一张图秒定坐标
OpenAI的o3模型在门萨智商测试中得分高达136,能够识别照片拍摄位置并进行复杂图像分析。尽管存在一些视觉推理问题上的不稳定性,但其强大的工程能力和顶尖基础性能使其有望解决这些问题。
Function Call已过时?MCP才是AI工具调用的未来!深度拆解与agent三者关系
最近 MOP 火得不行,但不少人对其理解仍停留在似懂非懂阶段。本文将梳理清楚 MCP、Function Call 和 Agent 三者之间的关系,并解释其区别和联系。
ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
中山大学联合上海人工智能实验室提出了LOKI,这是一个面向多模态合成数据检测的全新测试基准,涵盖图
CoT是否仍是增强Reasoning能力的必要工具?
MLNLP社区是国内外知名的机器学习与自然语言处理社区。本文系统探究了零样本CoT对推理大模型的影响,通过实验发现CoT提示增强了RLLMs的性能并抑制了过度反思,提出了关于提示设计和策略选择的研究方向。