碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一

谷歌发布了 Gemini 2.5 Pro Preview(I/O 版)模型,该模型在多项主流基准测试中表现优异,并可通过 Gemini API 和 Vertex AI 获取。新版本模型增强了编码和构建交互式 Web 应用的能力,在Web Arena 排行榜上名列前茅。

Gemini 2.5 Pro强势更新并霸榜,Claude 3.7首次遭遇全方位碾压!

Google DeepMind发布的Gemini 2.5 Pro在LMArena多个AI竞技场全面领先,实现文本、视觉和Web开发领域的统治地位。该版本还显著提升了代码转换、编辑能力和复杂智能体的表现,并通过Google AI Studio和Vertex AI向开发者开放。

谷歌再次创造历史:Gemini 2.5 Pro 通关《宝可梦:蓝》!

谷歌Gemini 2.5 Pro模型成功通关经典游戏《宝可梦:蓝》。软件工程师Joel Z搭建系统连接模拟器,通过分析内存信息自主决策玩游戏。项目强调不是基准测试,而是展示不同AI的思考方式差异。

北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

北大联合人工智能研究院等推出全新物理评测基准PHYBench,包含500道高质量物理题目,旨在评估大模型在物理感知与推理方面的表现,并通过创新的EED评分机制揭示前沿模型与人类专家之间的差距。