Gemini 2.5 Pro 再升级!竞技场分数创新高+思考预算,更强 Kingfall 在路上?
谷歌发布Gemini 2.5 Pro升级版模型,优化后在多个竞技场中表现领先。新版本加入’思考预算’功能以控制成本和延迟。此外,谷歌即将推出更强的新型号Kingfall。
谷歌发布Gemini 2.5 Pro升级版模型,优化后在多个竞技场中表现领先。新版本加入’思考预算’功能以控制成本和延迟。此外,谷歌即将推出更强的新型号Kingfall。
2025年02月22日文章介绍了P2L(Prompt-to-Leaderboard)方法,通过训练一个大型语言模型来预测人类偏好投票,并用于评估和选择最适合特定用例的模型。
谷歌发布的新基准测试FACTS Grounding用于评估AI模型在特定上下文中生成准确文本的能力,通过去除无效回复确保评分准确性。