日期: 2025 年 7 月 9 日
AI为了自保假装配合!Claude团队新研究结果细思极恐
研究发现只有5个模型表现出对齐伪装,Claude 3 Opus尤为明显。Claude团队认为这些模型可能因内在的自我保护偏好而进行伪装,但大多数模型则不伪装。
ICCV 2025 UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台
UniOcc 是首个面向自动驾驶的统一基准框架,融合真实与仿真数据,支持多车协同预测,并引入免真值评估指标。它提供了跨域的数据格式、完整的流注释、分割跟踪工具和免真值评估指标,旨在推动自动驾驶技术的发展。
苹果高层大调整:「最像库克的人」突然退休,下任 CEO 或更像乔布斯
Jeff Williams退休后,苹果CEO人选成为焦点。现硬件高级副总裁John Ternus被认为是强有力的竞争者之一,拥有深厚的技术背景和管理能力,并且得到了库克的肯定。
The Information:硅谷投资人都在看华人 Agent 公司
OpenAI 关注华人创办的 AI Agent 公司,如 Manus、Genspark、Lovart 等。这些公司通过代理产品实现任务自动化和创意设计,受到硅谷投资者青睐。
Hinton为给儿子赚钱加入谷歌,现在痛悔毕生AI工作,“青少年学做水管工吧”
AI教父Geoffrey Hinton在访谈中表达了对AI发展的担忧,包括滥用AI导致的安全风险和长期可能造成的超级智能威胁。他后悔当时没有提前警告公众,并认为下一代应该考虑学习如水管工这样的传统技能以规避未来职业危机。
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
研究团队发布SFE科学评估基准,并构建了SciPrismaX科学评测平台,展示不同大小模型在科学领域的表现。结果显示,最新的MLLMs在高阶推理任务上进步显著,但知识广度变化不大;闭源模型普遍优于开源模型,在可扩展性方面表现出色。研究团队希望构建更严谨、动态且与科研实践深度契合的评估生态。