刚刚!OpenAI正式官宣调整公司结构:奥特曼发全员信承认AGI会由多家公司实现
OpenAI宣布调整公司结构:转型为公共利益公司(PBC),保持非营利组织控制,并将资源用于实现更广泛的AI公益目标。
OpenAI宣布调整公司结构:转型为公共利益公司(PBC),保持非营利组织控制,并将资源用于实现更广泛的AI公益目标。
谷歌Gemini 2.5 Pro模型成功通关经典游戏《宝可梦:蓝》。软件工程师Joel Z搭建系统连接模拟器,通过分析内存信息自主决策玩游戏。项目强调不是基准测试,而是展示不同AI的思考方式差异。
Anthropic 宣布推出Claude的新功能Integrations,使其能够访问并执行更多复杂任务。通过这一功能,Claude能与各种工具无缝连接,提升协作能力。
今日 AI 模型 DeepSeek-Prover-V2 开源,专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率,并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习,提出两步法:首先合成数据,再用强化学习提升模型能力。
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本,因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏,并让用户有更多控制权来调整默认行为。
大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。