GUI智能体“大脑”升级!浙大&港理工等提出InfiGUI-R1,用强化学习实现深度推理

文章介绍了InfiGUI-R1,一个基于Actor2Reasoner框架训练的GUI智能体。该模型旨在提升AI在多步骤操作任务中的能力和可靠性,并能像人类一样先思考后行动。通过推理注入和深思熟虑增强两阶段训练方法,30亿参数的InfiGUI-R1-3B模型在多个基准测试中表现出色。

ICLR 2025 告别Token丢弃:更适合CoT和多轮对话的长文本推理加速方法

OmniKV 提出了一种创新性的动态上下文选择方法,用于高效处理长上下文 LLM 推理。它无需丢弃任何 Token,通过动态选择实现计算稀疏,显著提升推理速度和吞吐量,且在各种预算下均优于丢弃 Token 的方法。

ICML 2025 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

蚂蚁和中国人民大学的研究团队提出ViLAMP模型,实现对超长视频的高效处理。ViLAMP通过混合精度策略,在关键帧上保持高精度分析,大幅提升了视频理解效率,并在多个基准测试中超越现有方案。