英伟达开源「描述一切」模型,拿下7个基准SOTA

研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。

北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!

北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1,其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚,并为优势计算引入微小噪声,验证了小尺寸模型在视频推理中的潜力。