豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
一种名为VideoWorld的模型无需依赖语言模型,仅通过视觉信号学习知识、认知世界,并能执行复杂任务。它利用潜在动态模型高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。
一种名为VideoWorld的模型无需依赖语言模型,仅通过视觉信号学习知识、认知世界,并能执行复杂任务。它利用潜在动态模型高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。
Video Depth Anything 工作解决了单目深度估计在视频领域的时序一致性问题,融合时空头、时域一致性损失函数和关键帧推理策略,实现精度、速度及稳定性三者的平衡。
临近春节,豆包1.5 Pro发布,包含基础模型、视觉和实时语音模型。测试显示其推理能力、视觉理解能力和语音识别能力均有提升,但仍有待提高。基础模型已开始灰度测试,其他两个模型已上线。
字节跳动旗下大模型1.5系列发布,包括Doubao-1.5-pro、Doubao-1.5-lite等产品线,并在公开评测基准中表现出色,展示了中国AI技术的进步。
字节跳动在‘火山引擎Force大会’上发布豆包大模型家族升级版,日均tokens使用量增长33倍。新发布的豆包·视觉理解模型能够理解和回答基于文本和图像的问题,并应用于教育、旅游等场景。