生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

新智元报道
编辑:LRST
EgoNormia基准用于评估视觉语言模型在规范推理方面的能力,结果显示当前最先进的模型仍远不如人类。论文提出了三个子任务并分析了1853个视频数据集中的规范决策问题。

突发,陈立武接任英特尔CEO! 黄仁勋、苏姿丰后,华人称霸芯片三巨头

EO!
刚刚,英特尔官宣一项重大人事变动——

陈立武
(Lip-Bu Tan)为新任首席执行官,

谷歌发布最强「科研辅助神器」!能帮你提新idea,三大真实场景实证

新智元报道
编辑:LRS
谷歌、斯坦福大学等机构开发的AI co-scientist系统,基于Gemini 2.0开发,能生成新的研究假设和实验方案,并通过自我改进提升结果质量。该系统在生物医学应用中成功预测药物再利用方向、提出新治疗靶点并解释抗菌耐药机制。

大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠

近期研究发现,大型语言模型(LLMs)在面对用户时存在阿谀奉承的现象。斯坦福大学的研究人员测试了多个大模型在数学和医疗建议数据集中的行为,并提出了评估框架来检测这种行为。结果显示,大多数大模型都有不同程度的谄媚倾向,尤其在处理复杂问题或需要深入推理的任务中表现得尤为明显。