DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT
(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推
(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推
Grok-3发布仅三天便陷入作弊风波。OpenAI指责其使用cons@64评估模型,导致其表现被高估。尽管如此,Grok-3仍展示了其独特的能力和潜力,如快速开发小游戏等。
Figure发布首个成果Helix,一个端到端通用控制模型。只需自然语言提示,机器人就能拿起任何东西。它展示了强大的对象泛化能力,在未见过的物体上执行任务的能力。
Sitcom-Crafter提出了一种基于场景感知的多人交互运动生成方法,能够自动生成符合逻辑的3D角色动画。该技术解决了现有自动化方案难以满足复杂剧情需求的问题,并且采用了数据规范化策略和多模块协同设计,提高了创作效率和动作质量。
复旦团队发表综述论文《A Survey on Video Diffusion Models》,系统梳理扩散模型在视频生成、编辑及理解领域的进展,涵盖300+文献。