学术
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
本文介绍了一篇被CVPR 2025接收的论文AdaCM2,该研究提出首个支持超长视频理解的跨模态记忆压缩框架。通过观察视频与文本交互过程中的帧内注意力稀疏性和层间语义冗余性,提出了逐帧回归式建模、跨模态注意力打分和分层压缩机制等关键技术点,显著提高模型性能并降低内存消耗。
最新!Ilya现身多大毕业演讲:AI会完成我们能做的一切
Ilya Sutskever 在多伦多大学荣誉理学博士学位颁发仪式上的演讲内容,他指出人工智能将能够完成人类所有的工作,带来巨大挑战与机遇。通过生物计算机的类比强调AI潜力,并呼吁人们积极观察和准备即将到来的变化。
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
西湖大学研究团队提出SLOT方法,在推理时通过优化delta参数向量调整输出词汇概率分布,显著提升语言模型在复杂指令上的表现。
LLM 自回归做理解,MaskGIT 方案做生成!VILA‑U:一个模型搞定图像理解、视频理解和生成,简洁而强大
kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
太长