谷歌最强模型 Deep Think 正式上线,拿奥数金牌,月费 1800!

谷歌最强数学模型Gemini 2.5 Deep Think正式上线,仅限Gemini Ultra用户使用。该模型能在4.5小时内解出6题中的5道,并在国际数学奥林匹克竞赛中以35分成绩摘金。Deep Think模式提供更快、更复杂的推理输出,主要面向科研和复杂项目设计等高难度任务。

北航LiveRepoReflection: 扭转乾坤-仓库级代码反射

本文提出了一种新的代码仓库反思基准LiveRepoReflection,用于评估多文件仓库上下文中的代码理解和生成能力,该基准包含6种编程语言的1,888个测试案例,并通过严格的筛选流程确保其质量与难度。