学术
微软发布GUIAgent新范式!告别传统方式,小参数少数据,7B吊打72B模型
MLNLP社区致力于推动机器学习与自然语言处理领域的交流合作。近期微软团队提出GUI-Actor,该技术利用虚拟手指、多区块监督和验证器等方法实现无坐标交互,显著提升界面操控效率和准确性。
挑战 next token prediction,Diffusion LLM 够格吗?
本周解读了Diffusion LLM和AI推理成本相关话题。Gemini Diffusion因其扩散架构被社区热议,其生成效率高且并行高效机制让其有潜力成为自回归模型的新挑战者;同时,AI开发者们也关注到基于扩散模型的NLP任务潜力及其与传统建模方式的关系。
35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板
多模态大模型在文档理解领域的性能显著,但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc,揭示了当前模型的不足,并提出改进策略。
扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。