速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。
DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。
由于特朗普关税政策导致科技股暴跌,初创企业和风险投资公司转向AI驱动的成本优化与硬件囤积策略。Hustle Fund联合创始人建议谨慎支出并提前购买硬件。市场不确定性加速了人工智能初创企业的衰退。
本身不够好
。
尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们
中科院自动化研究所与中科紫东太初团队提出了一种结合高质量指令对齐数据与类 R1 的强化学习方法,用于提升目标检测性能。该方法包括召回奖励、精度奖励和渐进式规则调整策略等机制,在多个数据集上实现了显著性能提升。
本文介绍了一种基于规则的强化学习(RL/RFT)在GUI智能体领域的应用,UI-R1模型通过精心设计的奖励函数和高效的数据筛选策略提升了跨领域的任务表现。
一位AI公司CEO细数Llama 4五大疑点,包括长上下文、发布表现不佳、代码质量差等问题,并指出规模化已结束,大语言模型可能成为经济上失败的产品。NYU教授马库斯认为,真正智能需要意图远见,而非模式识别或捷径的数学推理。
RoboVerse 提出一个统一平台、数据集与评测体系,解决机器人仿真碎片化问题。MetaSim 解决跨仿真器兼容性;大规模合成数据集与标准化评测系统提升性能评估;混合仿真增强真实性;Real2Sim 支持从现实到仿真的资产重建;AI-Generate Tasks 创造新任务;支持 GPU 并行训练加速研究。