奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式 2025年7月11日16时 作者 量子位 已成为AI迈向AGI进程中的关键技术节点。 然而,其中 奖励模型 的设计与训练,始终是制约后训练效果
华科大开源MonkeyOCR:3B模型文档解析超越Gemini 2.5 Pro 2025年6月10日14时 作者 子非AI 结构-识别-关系 (SRR)” 三元组范式,在性能上实现了对主流流水线和大型端到端模型的超越,尤其在
字节Seed新作:模型合并如何改变大模型预训练范式 2025年6月6日23时 作者 机器之心 字节跳动提出预训练模型平均(PMA)技术,在不增加计算成本的情况下显著提升大模型性能。通过合并稳定期检查点,PMA能预测衰减阶段表现,节省资源并加速训练进程。
能分辨“爱马仕”和“地摊货”?人形机器人迎来触觉新风口 2025年4月17日23时 作者 AI前哨站 是发生在帕西尼感知科技(深圳)有限公司的一幕。与市面上大多数追求“能走会跑”的人形机器人不同,这家位