机器之心
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
本文介绍了一篇被CVPR 2025接收的论文AdaCM2,该研究提出首个支持超长视频理解的跨模态记忆压缩框架。通过观察视频与文本交互过程中的帧内注意力稀疏性和层间语义冗余性,提出了逐帧回归式建模、跨模态注意力打分和分层压缩机制等关键技术点,显著提高模型性能并降低内存消耗。
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
西湖大学研究团队提出SLOT方法,在推理时通过优化delta参数向量调整输出词汇概率分布,显著提升语言模型在复杂指令上的表现。