OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
在Kaggle AI国际象棋锦标赛上,OpenAI的o3以4-0击败了大热门Grok 4成为冠军。比赛中Grok的表现异常沉闷,而o3则展现了精准和系统性策略。
在Kaggle AI国际象棋锦标赛上,OpenAI的o3以4-0击败了大热门Grok 4成为冠军。比赛中Grok的表现异常沉闷,而o3则展现了精准和系统性策略。
谷歌与Kaggle联合推出Game Arena平台,以战略游戏评估AI模型。8月5日将举行首次LLM象棋比赛,八大顶尖AI模型参与,包括谷歌、OpenAI等。平台开放且透明,可测试通用问题解决能力。
DeepSeek发布免费开源模型DeepSeek-R1,性能媲美OpenAI o1。通过Kaggle平台进行微调训练,使AI更懂特定任务需求。
谷歌发布的新基准测试FACTS Grounding用于评估AI模型在特定上下文中生成准确文本的能力,通过去除无效回复确保评分准确性。