首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

研究团队提出像素空间推理范式,让视觉语言模型具备原生视觉操作能力,打破文本对视觉语义的翻译牢笼。通过视觉主动操作和视觉主导推理实现高效视觉理解,在高清图像、复杂场景计数及长视频推理中均取得显著性能提升。

史上最大AI投资?小扎百亿重金押注Scale AI!华裔最强打工皇帝赢麻了

Meta考虑向Scale AI投资可能高达百亿美元,这将是有史以来规模最大的私营公司融资之一。Scale AI估值接近140亿美元,主要业务为给AI打下手的数据标注工作,其CEO Alexandr Wang在短短几年内成为亿万富翁。

ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD

本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。