首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。

ICML 2025 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

蚂蚁和中国人民大学的研究团队提出ViLAMP模型,实现对超长视频的高效处理。ViLAMP通过混合精度策略,在关键帧上保持高精度分析,大幅提升了视频理解效率,并在多个基准测试中超越现有方案。

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

本文提出了一种无需微调的通用图像定制方法——多主体协同注意力控制(MCA-Ctrl),通过扩散模型实现精确的背景和布局控制,解决了现有技术方案中的关键瓶颈。

SIGGRAPH 2025 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

近期,可灵研究团队推出的CineMaster电影级文本到视频生成框架允许用户通过3D感知控制目标和相机运动来创作高质量视频内容。该方法在SIGGRAPH 2025会议中被收录,并展示了从任意视频中提取3D控制信号的数据构建流程。