68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩

大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。

用龙虾偷运芯片?英伟达怒怼 Anthropic 造谣,黄仁勋:美国别幻想在 AI 领域甩开中国

美国 AI 初创公司 Anthropic 提出对中国企业利用走私手段获取高端AI芯片的指控,引发英伟达强烈反驳。Anthropic 指出中国在 AI 竞赛中的进展,建议调整出口限制措施,但遭英伟达反对。

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。