一张图片+ 一条音频,照片开口说话唱歌,多角色、情绪控制都拿捏了。

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。

腾讯混元联合腾讯音乐,搞了个新模型 HunyuanVideo-Avatar,能让照片直接“活”过来。

你只要上传一张照片,再配上一段音频,它就能自动识别场景氛围和情绪,然后生成跟真人说话唱歌差不多的动态视频。

我也是用实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。这篇文章里的现实风格提示词 + GPT4o 生成了一张水獭图片。

顺手把我这个视频的音频给他了:

生成过程还挺久的:

挺逗的。

看官方演示,效果还挺不错。

支持各种风格的角色(真人、卡通、3D),还能控制情绪(喜怒哀乐),甚至多角色同框对话也不在话下。

官方说,这技术就是为短视频创作、电商带货、广告这些场景量身打造的,已经在腾讯音乐的好几个 App 里用上了。

现在,单角色模式已经开源,代码、模型权重、项目主页、技术报告都放出来了,在混元官网也能直接体验(支持最长 14 秒音频)。多角色模式也说快了。

  • 项目主页: https://hunyuanvideo-avatar.github.io

  • Hugging Face 模型: https://huggingface.co/tencent/HunyuanVideo-Avatar

  • GitHub 代码: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

  • 在线体验: https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

  • 技术报告 (arXiv): https://arxiv.org/pdf/2505.20156

技术层面,HunyuanVideo-Avatar 有啥不一样?

以前搞这种音频驱动的人物动画,主要有几个难题:

  1. 想让视频动作丰富吧,角色的形象又容易崩

  2. 角色的情绪跟音频里的情绪,老是对不上号

  3. 多个人一起说话的场景,基本搞不定。

他们用的是一种基于多模态扩散 Transformer (MM-DiT) 的模型,主要有三个核心创新:

  1. 角色图像注入模块 (Character Image Injection Module):
    以前很多方法是直接把参考图的特征加到视频里,这样虽然能保证形象一致,但动作就僵硬了。而且训练和推理的时候,条件容易不匹配。

    HunyuanVideo-Avatar 这个新模块,换了一种方式注入角色特征(沿着通道维度注入,避免了直接在潜空间操作带来的动态性和一致性的权衡),目标是既能让动作流畅自然,又能牢牢锁住角色的样子。

    他们对比了三种注入方式(Token Concat, Token Concat + Channel Concat, 以及他们自己的方法),发现他们的方法效果最好。

  2. 音频情绪模块 (Audio Emotion Module, AEM):
    为了让角色的表情能跟音频里的情绪对上,他们搞了这个模块。它能从一张带有情绪参考的图片里提取情绪线索,然后把这些线索“传递”到生成的视频里。

    这样,就能更精细地控制角色的情绪风格,让表情更真实。他们发现,把这个模块插到模型的 Double Block 里效果最好,能更好地捕捉和表达情绪细节。

  3. 面部感知音频适配器 (Face-Aware Audio Adapter, FAA):
    多角色场景下,怎么让不同的人根据不同的音频说话,这是个大难题。FAA 就是干这个的。

    它会在潜空间层面,用面部掩码把需要被音频驱动的角色“框”出来,然后通过交叉注意力机制,只把对应的音频信息注入到这个特定角色的面部区域。这样,就能独立控制不同角色的口型和表情,实现更逼真的多角色对话效果。

▲ 整体框架图

HunyuanVideo-Avatar 在一些公开的基准数据集(比如 CelebV-HQ, HDTF)和他们自己搞的一个包含各种复杂场景的“野外数据集”上,都取得了比现有 SOTA 方法更好的效果。

官方的定量对比数据显示,在 FID、FVD、IQA、ASE、Sync-C 这些指标上,HunyuanVideo-Avatar 都表现出色。用户研究也表明,在口型同步、身份保持这些方面,它比其他方法强。

怎么本地部署?

官方提供了详细的安装指南和运行命令,支持 Conda 环境和 Docker 镜像。硬件方面,需要英伟达 GPU,推荐 80GB 显存,最低也得 24GB(跑起来会很慢)。

他们还提到了长视频生成的方法,用的是一种叫做 Time-aware Position Shift Fusion 的技术,能让模型生成超过 129 帧的视频,减少卡顿和突兀的转场。

https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

点这里👇关注我,记得标星哦~

(文:AI进修生)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往