自然语言提示归档

AAAI 2025 浙大团队提出TechSinger：基于流匹配的技巧可控、多语言歌声合成

2025年3月16日8时作者 PaperWeekly

本文提出TechSinger，一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统，克服传统方法在可控性和艺术表达上的局限。

2025年2月21日8时作者量子位

Figure发布首个成果Helix，一个端到端通用控制模型。只需自然语言提示，机器人就能拿起任何东西。它展示了强大的对象泛化能力，在未见过的物体上执行任务的能力。

2024年12月17日8时作者 AI寒武纪

谷歌发布了Veo 2和Imagen 3等新模型，并推出了Whisk图像生成工具。Veo 2能生成高质量视频，Imgen 3则改进了图像生成能力，而Whisk允许用户通过组合图像来创作新的艺术作品。