李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件

研究人员提出了一种‘嫁接’新思路——直接将预训练好的模型作为‘底座’,通过修改组件来研究新架构。这种方法在不增加大量计算资源的情况下提高了文生图模型的生成速度,并且保持了较好的图像质量。

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。

Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了

Midjourney发布视频生成模型V7,并引发热议。视频效果逼真,包括跑步、挖蛋糕等场景。物理真实感和细节表现优秀,但音频问题引发讨论。团队表示正在完善并呼吁用户参与评分和提出定价建议。同时,图像生成模型V7也在不断更新中。

8个数据集全面胜出!思维链推理刷新图学习表现上限

首个应用于无文本图数据的类思维链提示学习框架GCoT发布,显著提升节点分类和图分类任务少样本学习表现。通过逐步推断机制、融合生成思维提示及节点特定提示设计,在八个公开数据集上全面超越现有SOTA方法。

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。