3 月 2025 - 第249页共274页

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

2025年3月4日16时作者机器之心

在人工智能领域，直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注，但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法，在Bradley-Terry模型中增设参数函数以缓解该问题，并通过理论分析与实验验证了其有效性。

2025年3月4日16时作者 PaperWeekly

些成功的案例表明，在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。
除了预训练外，一些通

2025年3月4日16时作者机器之心

视觉强化微调项目 Visual-RFT 通过规则奖励和强化学习方法，实现了视觉语言模型在目标检测、分类等任务中的高效提升。项目已开源，欢迎加入。

2025年3月4日16时作者机器之心

模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE 技术依然还有显著的优

2025年3月4日16时作者 PaperWeekly

CVPR 2025录用结果出炉！今年共13008篇论文投稿，最终录取率仅为22.1%。大模型时代的研究方向集中在端到端、闭环仿真3DGS、多模态大模型和扩散模型等前沿领域。科研辅导服务帮助学生解决选题、实验设计、创新点设计等问题。

2025年3月4日16时作者 AI寒武纪

MIT教授Markus J. Buehler团队提出的新自学习AI框架PRefLexOR能够像人类一样进行深度思考和自主进化。它通过迭代的推理改进自我学习，具有记忆、微生物修复和自进化系统等特性。

2025年3月4日14时作者老刘说NLP

个模型在GPU上运行），GGUF（可能将层卸载到CPU上）又是啥？本质是啥？这些都是困扰已久的问题。

2025年3月4日14时作者小兵的AI视界

议记录，它为我们的生活和工作带来了极大的便利。今天，我们要深入探讨的是一款名为
RealtimeST