超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码模型全开源 蚂蚁&清华出品
蚂蚁清华团队开源的AReaL-boba框架,显著提升了模型训练效率和推理能力。32B规模模型仅需200美元、200条数据即可复现,且在数学推理上达到SOTA水平,训练吞吐性能提升显著,成本大幅降低。
蚂蚁清华团队开源的AReaL-boba框架,显著提升了模型训练效率和推理能力。32B规模模型仅需200美元、200条数据即可复现,且在数学推理上达到SOTA水平,训练吞吐性能提升显著,成本大幅降低。
Runway发布新一代视频生成模型Gen-4,支持从单张照片生成电影级别的动态视频,并具备高保真和物理规律理解能力。Gen-4能保持角色形象一致、还原真实世界现象,已被应用到多个微电影制作中。
上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。
GPT-4o图像生成引发热议。用户发现逐行生成效果只是浏览器端动画,而OpenAI为此一直在熬夜保持服务器在线。GPT-4o在版权问题上表现不一,引发了关于AI处理肖像权的讨论。
智谱新发布的新功能AutoGLM沉思和沉思,可帮助用户轻松完成多种任务并具备自主执行能力。它利用推理模型进行复杂问题的推理规划,并在成本上做到足够低,使得Agent大规模应用成为可能。
中科大研究人员提出ROUSER方法,在信息瓶颈框架下学习鲁棒动作价值表征,显著提升视觉强化学习泛化性能。该方法在12个连续控制任务中表现出色,尤其适用于背景与颜色干扰的环境。
千寻智能宣布完成5.28亿元Pre-A轮融资,致力于研发通用人形机器人和具身大模型。公司计划在智能制造、物流、康养等领域应用,并与清华大学等建立合作实验室培养博士人才。
奥特曼被OpenAI董事会解雇事件曝出新内幕。关键证据来自前CTO Murati与奥特曼的对话截图,揭示了奥特曼在公司内存在撒谎行为。此外,涉及资金管理和管理风格等方面的问题加剧了内部矛盾,最终导致奥特曼被解雇。