68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
10岁收到电脑的Rose Yu成长为AI领域的领军人物,她用物理学原理改进了交通、飓风和核聚变预测。现任加州大学圣地亚哥分校副教授,致力于开发AI科学家助手加速科学发现。
Claude新增了Integration功能和Research功能更新,并向Max、Team和Enterprise用户开放MCP应用。
美国 AI 初创公司 Anthropic 提出对中国企业利用走私手段获取高端AI芯片的指控,引发英伟达强烈反驳。Anthropic 指出中国在 AI 竞赛中的进展,建议调整出口限制措施,但遭英伟达反对。
ICML 2025共录用3260篇论文,录用率为26.9%。评审质量引发热议,审稿人敷衍问题频出。多个案例显示评审存在错误和疏忽,影响了公正性和准确性。
InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。
第42届国际机器学习大会ICML将于2025年7月在加拿大温哥华举行,共收到12107篇论文,接收率为26.9%。313篇论文被选为Spotlight Poster。高分论文包括Neural Discovery in Mathematics等,如字节跳动的MARS和伊利诺伊大学厄巴纳-香槟分校的EmbodiedBench。一些被拒论文同样值得讨论,因为这些论文的价值可能未被充分挖掘。