Gemini 2.5实现视频理解重大突破:一口气处理6小时视频,任意视频秒变互动网页
谷歌Gemini 2.5 Pro视频理解能力提升,可在6小时内处理长达6小时视频,并实现视频到应用的转化、精准片段检索及强大的时序推理等新功能。
谷歌Gemini 2.5 Pro视频理解能力提升,可在6小时内处理长达6小时视频,并实现视频到应用的转化、精准片段检索及强大的时序推理等新功能。
OpenAI正式推出强化微调(RFT),通过思维链推理和任务专属评分机制提升模型特定领域的性能。目前已开放给经过验证的组织使用,并提供折扣优惠和指南。RFT适用于需要正确且可验证决策的工作流,已在芯片设计、医疗编码分配及税务分析等多个领域展示出色效果。
OpenAI CEO Sam Altman宣布Instacart CEO Fidji Simo加入OpenAI担任应用部门CEO。Fidji Simo此前是OpenAI董事会成员,她将负责领导新整合的应用部门,加速技术的产品化、规模化和商业化进程。
OpenAI宣布调整公司结构:转型为公共利益公司(PBC),保持非营利组织控制,并将资源用于实现更广泛的AI公益目标。
谷歌Gemini 2.5 Pro模型成功通关经典游戏《宝可梦:蓝》。软件工程师Joel Z搭建系统连接模拟器,通过分析内存信息自主决策玩游戏。项目强调不是基准测试,而是展示不同AI的思考方式差异。
Anthropic 宣布推出Claude的新功能Integrations,使其能够访问并执行更多复杂任务。通过这一功能,Claude能与各种工具无缝连接,提升协作能力。
今日 AI 模型 DeepSeek-Prover-V2 开源,专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率,并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习,提出两步法:首先合成数据,再用强化学习提升模型能力。
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。