只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升,成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。
南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升,成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
10岁收到电脑的Rose Yu成长为AI领域的领军人物,她用物理学原理改进了交通、飓风和核聚变预测。现任加州大学圣地亚哥分校副教授,致力于开发AI科学家助手加速科学发现。
Claude新增了Integration功能和Research功能更新,并向Max、Team和Enterprise用户开放MCP应用。
美国 AI 初创公司 Anthropic 提出对中国企业利用走私手段获取高端AI芯片的指控,引发英伟达强烈反驳。Anthropic 指出中国在 AI 竞赛中的进展,建议调整出口限制措施,但遭英伟达反对。
ICML 2025共录用3260篇论文,录用率为26.9%。评审质量引发热议,审稿人敷衍问题频出。多个案例显示评审存在错误和疏忽,影响了公正性和准确性。
InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。