Gemini 2.5 Pro:跑分屠榜,口碑两极,谷歌AI的“冰与火之歌”
谷歌最新旗舰模型 Gemini 2.5 Pro 在多项关键基准测试中全面领先,拥有100万 Token 的上下文窗口和稀疏混合专家架构。然而,在开发者社区的反馈中,Gemini 被批评代码风格冗长且容易忘记上下文,而Claude Opus 4 则被认为更具优雅和简洁性。
谷歌最新旗舰模型 Gemini 2.5 Pro 在多项关键基准测试中全面领先,拥有100万 Token 的上下文窗口和稀疏混合专家架构。然而,在开发者社区的反馈中,Gemini 被批评代码风格冗长且容易忘记上下文,而Claude Opus 4 则被认为更具优雅和简洁性。
谷歌和OpenAI在大模型领域竞争激烈,近期Google的Gemini-Exp-1114和Gemini-Exp-1121模型迅速更迭Top榜单。有人担忧当前的人工智能基准测试方法可能简化了模型评估,引发对安全性和可靠性等问题的关注。