最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳,最优模型仅获得62.8的CoT得分和56.7%的准确率。
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳,最优模型仅获得62.8的CoT得分和56.7%的准确率。
多模态生成技术推动AI视频创作新阶段,生数科技产品副总裁廖谦分享了其对于多模态大模型终局的看法及应用场景。视频生成领域迎来黄金发展期,预计2024年将出现重大突破。
UC伯克利研究发现,强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型,在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。
趣丸科技副总裁贾朔在AIGC峰会上分享,AI音乐创作正让艺术创作门槛变得触手可及。他指出AI降低了创作技术门槛,并提升了创作效率,同时强调AI不会完全替代人类创作者,而是作为辅助工具。
复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine框架,能够处理多种条件组合的多条件可控生成任务,并在多个实验中达到SOTA。
联发科在天玑9400+中引入多项新技术,提升了AI能力,并发布AI开发套件2.0和Neuron Studio工具集,推动智能体AI在手机上的应用。
第三届中国AIGC产业峰会上,58家企业和53项产品入选2025年值得关注的AIGC榜单,涵盖大模型、基础模型、行业应用等全产业链,推动AIGC技术在企业运营中的实际应用。