视觉语言模型归档

4K-Agent：可将低分辨率图像提升至4K高清智能体

2025年8月2日8时作者 AIGC开放社区

专注AIGC领域的专业社区介绍，强调图像超分辨率技术及多智能体系统4K Agent的研究与应用。它能够处理各种类型的退化图像，并通过高度可配置的模块进行灵活适应和优化。

MLNLP社区介绍了采用多回合、任务导向的交互式强化学习框架Mobile-R1，旨在提高移动代理在复杂环境中的适应性和探索能力，并提出三阶段训练流程提升模型表现。团队通过高质量轨迹数据集进行格式微调、动作级和任务级训练，最终显著提升了模型在多种基准上的性能。

多模态理解与生成新方法ThinkDiff在ICML2025上提出，仅需少量数据和计算资源，让扩散模型具备推理能力，并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力，大幅提高图像生成质量。

2025年7月3日8时作者 NLP工程化

基于GLM-4.1V-9B-Thinking模型，引入强化学习技术提升视觉语言模型能力，在18个任务中与8倍参数量的Qwen-2.5-VL-72B相当或超越

2025年6月29日16时作者机器之心

CMU 研究生李浩然团队提出 HoPE，通过混合频率分配策略和动态缩放时间编码提升多模态模型在长视频理解与检索任务中的表现。

2025年6月27日16时作者机器之心

基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索，提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率，并通过经验流蒸馏技术进一步提升了其自主性。

2025年6月18日14时作者 Hugging Face

它是一个轻量级
工具包
，让你可以在
免费的 Colab Notebook
上启动 VLM 训练。

2025年6月13日8时作者 AIGC开放社区

展和
应用
落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
计算机视觉领域从传统的卷积神

2025年6月11日16时作者 PaperWeekly

VRAG-RL 是一种基于强化学习的视觉检索增强生成方法，通过引入多模态智能体训练，实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。

2025年5月30日16时作者量子位

香港中文大学与新加坡国立大学的研究者提出了一种名为TON的新颖选择性推理框架，让视觉语言模型可以自主判断是否需要显式推理。该方法显著减少了生成的思考链长度，提高了模型推理过程的效率，并且在不牺牲准确率的前提下提升了响应多样性。