长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
滑铁卢大学陈文虎团队提出Mamba-Transformer混合模型Vamba,通过改进模型架构设计提升视频理解效率。相比传统方法,Vamba在同等硬件条件下可处理的视频帧数提升4倍,内存消耗降低50%以上,并实现单步训练速度翻倍。
滑铁卢大学陈文虎团队提出Mamba-Transformer混合模型Vamba,通过改进模型架构设计提升视频理解效率。相比传统方法,Vamba在同等硬件条件下可处理的视频帧数提升4倍,内存消耗降低50%以上,并实现单步训练速度翻倍。
人形机器人小麦在发布会上展示了工业和商业场景中的应用能力,包括在工厂进行零部件上下料、物料搬运等任务,在商场担任停车场交通疏导员、汽车门店导购、餐厅服务员等多种角色。魔法原子公司透露了其首款具身智能大模型‘原子万象’的技术细节,并计划今年推出400台人形机器人进入工业和商业场景。
新加坡副总理王瑞杰和阿联酋AI部长奥马尔·苏丹·奥拉马试乘百度Apollo park的萝卜快跑无人驾驶汽车后,对技术表示认可。萝卜快跑因其安全性和舒适性获得政要点赞。文章指出,大模型应用于端到端无人驾驶提高安全性;硬件层面如传感器数量和冗余设计确保安全;软件方面大模型增强泛化能力提升适应城市复杂路况的能力。萝卜快跑出海新加坡和阿联酋前景广阔。
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
MagicMotion提出了一种新的图像到视频生成框架,能够在指定的轨迹条件下精确控制物体运动。该方法构建了大规模的轨迹数据集,并引入了隐分割损失以提高对象形状感知能力。实验结果显示,MagicMotion在多种指标上优于现有方法,展示了卓越的性能。
港科大与趣丸科技合作推出Kiss3DGen模型,利用成熟图像生成模型和LoRA技术创建高质量三维资产。无需额外训练即可即插即用,并成功减少对大规模数据依赖。
DeepSeek官方发布DeepSeek-V3模型更新技术报告,V3版本参数量约为660B,在数学、代码类评测集成绩超过GPT-4.5,并展示了其在前端开发、中文写作、中文搜索及工具调用等方面的提升。