Grok 4 逆天跑分成绩曝光,AI 首次攻破人类最后考试 HLE!

这个夏天,有多个新模型(如Grok 4、DeepSeek-R2等)备受期待。近期,关于疑似Grok 4 / Grok 4 Code的基准测试截图引发了广泛关注。这些数据虽然没有被官方认证,但表现出色,尤其是HLE和GPQA测试中表现突出。

ICCV25|单层干预足以减轻LLM的幻觉

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流与进步。近日,论文提出一种无需训练、在线推理中即可部署的轻量干预机制’ONLY’,显著降低大型视觉-语言模型生成幻觉的能力。

去年暑期近3万人参与的AI夏令营,正式启航!

一年一度Datawhale主办的AI夏令营升级,聚焦真实项目实践。2024年吸引了38648名学习者参加,涵盖CV图像挑战赛和逻辑推理大赛等。多位学员分享了通过夏令营获得实习机会和职业发展的经历。今年7月6日-11日开放报名,联合科大讯飞、魔搭社区等合作企业举办。