告别评估乱象!首个视觉解释综合性基准发布,附人类真值 KDD’25
埃默里大学团队推出Saliency-Bench,一个全面评估视觉解释的基准测试套件,包含8个真实世界数据集、标准化流程和开源工具,解决了XAI评估中的挑战。
埃默里大学团队推出Saliency-Bench,一个全面评估视觉解释的基准测试套件,包含8个真实世界数据集、标准化流程和开源工具,解决了XAI评估中的挑战。
奥特曼从特朗普的对立阵营转向亲信,与特朗普多次会面并获得投资支持。他成为白宫AI政策核心顾问,推动了OpenAI数据中心项目,并寻求减轻地方监管障碍。
英伟达发布OpenReasoning-Nemotron模型,基于Qwen2.5架构和DeepSeek-R1-0528生成数据,该模型在多个基准测试中表现优异,特别是在数学、科学和代码任务上。
AlphaFold因获得诺奖而声名大噪,但其原型早在2016年就已提出。Vladimir Golkov在NeurIPS上发表的研究揭示了利用深度神经网络预测蛋白质接触图的方法。AI学术大佬如Yann LeCun和Pierre Baldi指出,在DeepMind之前已有使用深度学习进行类似工作的研究,强调科学探索的传承与发展的重要性。
OpenAI的通用推理模型在国际数学奥林匹克竞赛(IMO)中获得金牌,引发关注。陶哲轩认为,缺乏受控测试环境使得AI数学能力难以准确评估。
OpenAI发布新模型在IMO 2025中夺金牌,引发广泛关注。该模型仅解出前五题中的四道,并指出第六题难度极高。Alexander Wei表示这标志着新的推理技术突破,或达到AGI水平。