AAAI 2025 浙大团队提出TechSinger:基于流匹配的技巧可控、多语言歌声合成
本文提出TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。
本文提出TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。
Figure发布首个成果Helix,一个端到端通用控制模型。只需自然语言提示,机器人就能拿起任何东西。它展示了强大的对象泛化能力,在未见过的物体上执行任务的能力。
谷歌发布了Veo 2和Imagen 3等新模型,并推出了Whisk图像生成工具。Veo 2能生成高质量视频,Imgen 3则改进了图像生成能力,而Whisk允许用户通过组合图像来创作新的艺术作品。