谷歌放大招!新版 Gemini 2.5 Pro 碾压 Claude、GPT,地表最强 AI 来了?
谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview,该模型已在网页版、App端和开发者平台全面上线,并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型,尤其擅长编程任务。此外,新版还支持100万 tokens 上下文,具备强大的推理能力和前端UI优化能力。
谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview,该模型已在网页版、App端和开发者平台全面上线,并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型,尤其擅长编程任务。此外,新版还支持100万 tokens 上下文,具备强大的推理能力和前端UI优化能力。
OpenAI发布o3和o4-mini模型,具备连续调用超过600次工具的能力,超越人类工程师。主要特点包括全面工具访问与推理能力、图像推理能力的突破以及主动式工具使用。
最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。
OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为,但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为,但仍能有效识别不良意图。
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。
MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。近日,一篇关于LLM的论文提出TokenSkip方法,通过跳过不重要token来压缩思维链,提高推理速度和用户体验。