数学能力
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Meta正招聘来自OpenAI的人工智能研究员,包括赵盛佳、余嘉辉等多名核心研究人员。这些加入者在多款OpenAI模型中扮演重要角色,如o1-mini和o3-mini。Meta还聘请了OpenAI的特拉皮特·班萨尔,并考虑提供数百万美元薪酬方案吸引高级人才。
Claude 3.7 Sonnet:AI界的“思考达人”来了!|Claude 3.7构建论文分析器
Claude 3.7 Sonnet是Anthropic最新推出的AI模型,主打‘会思考’。它在软件工程、推理和数学方面表现更出色,并引入了Extended Thinking功能让思考过程可视化。
发布3天后,Grok 3开放免费使用,马斯克:让你们用到服务器崩溃为止
马斯克的AI公司xAI宣布Grok 3模型免费开放使用,直至服务器崩溃。X功能最全套餐目前价格为每月40美元或每年395美元。用户称Grok 3比ChatGPT好但不如Claude。xAI希望通过提供完整的SOTA模型吸引用户。
斯坦福揭秘o1-preview软肋!数学竞赛题稍作修改,准确率骤降30%
斯坦福研究发现,即使在数学竞赛中表现出色的大模型o1-preview,在题目稍作修改后准确率也会大幅下降30%。这揭示了AI模型在应对变体题时的局限性。
自动评估基准 | 基础概念
自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法,并指出了其优势与劣势,包括一致性、成本效益、易于理解以及高质量测试集的特性,但同时也提到复杂任务难以保证效果和数据污染的问题。
Kimi版o1实装上线,这里是我们的一手测试↑
Kimi新模型k1发布即上线可用,视觉与推理能力出众。基于强化学习,k1能够深入理解图片信息并进行思维链推理,涵盖数学、物理及化学题。数理化实测中表现出色,超越OpenAI等模型。
OpenAI重夺竞技场第一,但这波靠的是4o
OpenAI开发者日新加坡站举行,新版ChatGPT发布。此版本更新了创意写作能力,并且在多项具体能力和综合排名中表现突出。新版本击败Gemini-Exp-1114和Claude 3.5 Sonnet等竞争者,总胜率达到72%以上。OpenAI还透露即将上线的o1满血版及其开源计划引发了网友们的关注与讨论。