阿里巴巴达摩院
ICML25 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
OmniAudio团队发布了一项研究,能够直接从360°视频生成空间音频。该技术解决了现有视频到音频转换中的方向信息缺失问题,为虚拟现实和沉浸式娱乐提供了新的可能性。
太给力了!刚刚开源的TTS模型,1:1零样本声音克隆,连呼吸节奏都能控制!
Spark-TTS 是一款全新的高质量语音合成系统,支持零样本语音克隆、细粒度语音控制、跨语言生成等功能。它结合了 BiCodec 编解码器和 Qwen-2.5 思维链技术,实现自然且高效的语音生成,适用于多种场景如有声读物、多语言内容及AI角色配音。
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
阿里开源万相2.1版本,视频生成模型参数量高达14B,可实现复杂运动细节同步、文字生成等功能。支持分辨率720P的14B版本已在多平台开放下载,并计划集成ComfyUI。
阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA 3
阿里巴巴达摩院发布VideoLLaMA3多模态基础模型,支持看懂视频内容、理解图片并能对话,基于Qwen2.5架构。