天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力
最新研究质疑苹果认为推理模型具备真正逻辑思维能力的观点,指出其在面对复杂问题时表现不佳,并可能陷入性能与思考努力双重崩溃的现象。
最新研究质疑苹果认为推理模型具备真正逻辑思维能力的观点,指出其在面对复杂问题时表现不佳,并可能陷入性能与思考努力双重崩溃的现象。
北大袁粒课题组提出UniWorld-V1统一大模型架构,在多个基准上性能表现优异,并且开源了全部代码、模型权重与数据集,支持图像生成、编辑等多种任务。
OpenAI负责人Joanne Jang提出,关注AI对人类情感福祉的影响比争论其‘意识’更有现实意义。文章探讨了人机关系、AI感知层面的‘意识’与设计原则。
谷歌发布开源项目Gemini-fullstack-langgraph-quickstart,结合Gemini 2.5模型与LangGraph框架,展示快速构建研究型AI代理系统的方法。项目分为五步智能查询生成、网络信息搜集、反思与知识缺口分析、迭代优化搜索和综合答案生成,强调组合式AI架构、可解释性设计和实时信息整合。
Andrej Karpathy认为复杂且缺乏脚本支持的软件产品前景堪忧。他建议开发者应提升他们的软件以更接近自然语言方式操作,以实现与专业人士的智能协作及赋能大量产消者。
OpenAI更新了ChatGPT,新增深度研究的连接器功能以及录音模式。连接器支持多种文档和数据源进行更深入的研究;录音模式可以自动整理会议、头脑风暴或语音笔记的内容,并提供时间戳以便查询。
Cursor 1.0发布,新增自动化代码审查工具BugBot、全面开放的背景智能体、记忆功能(Memories)、一键式MCP安装、Jupyter Notebook支持以及新的设置与仪表盘界面。
DeepSeek R1-0528版本超越xAI、Meta等成为全球第二大人工智能实验室,并与谷歌并列。其智能指数得分从60分跃升至68分,超过多个顶级模型,提升主要体现在数学竞赛、代码生成和推理方面。
微软CEO纳德拉在Build 2025上分享了对未来满是AI的世界的看法。他认为AI智能体将成为新UI和应用程序的核心,并指出SaaS应用将从“系统之王”转变为“代理式网络”的后端服务,强调企业将拥有员工的AI智能体并将其管理和保护。纳德拉还提出了’零成本智能’时代加速到来的观点,以及微软全面押注AI的技术栈重构计划。