任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答

竞技场(lmarena.ai)推出的Prompt-to-leaderboard(P2L)功能,根据输入的Prompt实时排名大模型。通过实验证明其在预测人类偏好方面优于传统的全局排行榜方法,并能更准确评估模型表现。

OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

国外网友发现o3-mini-high在思考过程中经常出现中文!有人猜测是否借鉴了DeepSeek。对此,网友纷纷质问奥特曼和OpenAI:究竟为何使用中文?专家认为这可能与模型处理语言的方式有关。不过目前「语言混杂」问题仍需解决。