物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架
近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。
近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。
阿里千问开源Qwen2.5-VL-32B-Instruct,提升视觉语言能力与数学推理。相比同类模型,其在多模态任务中表现显著优势,且在同规模纯文本能力上也取得顶级表现。
文章介绍了一篇关于对抗攻击的研究成果,该研究提出了一种新的方法M-Attack来提高对大型视觉语言模型的攻击成功率,并成功应用于多个商业模型中。
新智元报道
编辑:LRST
EgoNormia基准用于评估视觉语言模型在规范推理方面的能力,结果显示当前最先进的模型仍远不如人类。论文提出了三个子任务并分析了1853个视频数据集中的规范决策问题。
清华大学智能产业研究院联合商汤研究院等机构发布首个基于通用动作空间的具身基础模型框架UniAct,解决了具身智能中的动作空间异构一致性难题。通过视觉语言模型实现跨模态泛化,在多项权威评测中超越参数量达14倍的OpenVLA对手。
Proxy Lite 是一个仅3B参数的开源视觉语言模型,通过轻量级设计和低资源占用特性,提供高效、便捷的网页自动化操作体验。它能够像真人一样观察浏览器状态、思考决策并执行任务,适用于网页抓取、自动表单填写等多种场景,帮助开发者构建AI驱动的浏览器控制系统。
Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。
本文介绍了5个AI和机器学习相关项目及工具:s1用于测试时间缩放提高推理效率;R1-V通过强化学习提升视觉语言模型泛化能力与训练效率;deepseek.cpp是一个基于C++的CPU-only推理实现,旨在为DeepSeek大语言模型提供支持;Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力;OpenHealth则是一款本地运行的AI健康助手。