月度归档: 2025 年 4 月
英伟达开源「描述一切」模型,拿下7个基准SOTA
研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。
港大与字节提出TokenBridge:离散和连续token优点我都要!|自回归视觉生成模型解读系列
模简单的优点,又可以保持连续 token 的强表示能力。
>>
加入极市CV技术交流群,走在计算机视
刚刚!Karpathy亲述专业AI编程七步心法
Andrej Karpathy 分享了他在进行“严肃”AI辅助编程时遵循的七个关键步骤流程。强调保持对 AI 输出的控制,并利用它作为学习工具,而不是完全依赖或抄袭。
北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!
北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1,其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚,并为优势计算引入微小噪声,验证了小尺寸模型在视频推理中的潜力。
亿元资金池,百度邀你一起定义AI原生应用的中国范式!第三届百度“文心杯”创业大赛再次启动
百度启动第三届文心杯创业大赛,提供近亿元投资和资源支持,涵盖技术、场景及资金资源三重赋能体系,旨在推动大模型应用落地。