AI视频神器!腾讯混元HunyuanCustom,角色一致性大突破!



点击上方 蓝字 关注我们

图像提供身份,文本定义一切!🔥

   硬评测   

作者 | Kozmon

      编辑 | lalalunee

用AI生成视频最让人头疼的,莫过于「角色一致性」问题。老是弄着弄着人就变样了,让人哭笑不得:


前一秒还是你指定的帅气小哥,镜头一转,秒变路人甲」?或者,精心设计的虚拟主播,说着说着就「面目全非」?


针对这个「老大难」问题,腾讯混元团队放了个大招——发布并开源了一个叫HunyuanCustom的新工具,在保持AI视频「人不变脸、物不乱飘」这事上,效果特别顶。


简单说,你给它一张图,它就能把图里的主角给你「焊死」,让他上天入地、七十二变,在新场景、新动作、甚至换了身衣服的情况下,角色,都不会出现一点变化,效果一点不输顶级闭源模型!


而且不光是单主角,多主角也能安排,真正做到了「图像提供身份,文本定义一切」。



给大家划一下产品重点哈:


  • 核心的「单主体视频生成」是这么玩的:你给一张图(比如你老板),再配句文字(比如“他正在大马路上遛狗”),HunyuanCustom就能认出照片里的人,然后在新场景、新动作、甚至换了身衣服的情况下,生成一段连贯自然的视频,关键是人还是那个人,不会「变脸」。



  • 不光能搞定一个人,还能玩「多主体视频生成」。比如,你同时给一张人物照和一张产品照(比如一包薯片),再告诉它“一名男子正在游泳池旁边,手里拿着薯片进行展示”,它就能让这两个主体都按你的剧本出现在视频里,并且保持各自的特征。


  • 还有个「视频驱动」模式也挺有意思,官方叫「视频局部编辑」。你能把图片里的人或东西,自然地「P」到一段现成的视频里去,或者替换掉视频里原有的某些元素。搞点创意植入、场景扩展,或者说给视频内容「二次创作」一下,都方便多了。


  • 还能「音频驱动」生成视频,也就是所谓的“单主体视频配音”。你给张人物图,配上一段声音(比如一段演讲或歌声),它就能生成这人在各种场景里开口说话、唱歌的视频,表情口型啥的都能对上。这对做「数字人」直播、虚拟客服、在线教育演示什么的,简直是降本增效神器。


  • 以前的视频AI,要么是文生视频,每次随机性太大,「角色一致性」愁死人;要么就是图生视频,顶多让照片上的人做几个固定表情,衣服背景基本都锁死了,想换个场景换个动作比登天还难。
    HunyuanCustom牛就牛在,它通过引入「身份增强机制」和「多模态融合模块」,真正做到了「图像提供身份,文本定义一切」。

  • 这套东西,对视频创作者、短视频博主、电商老板、广告创意人来说都挺实用。比如,广告里模特一秒换装、换背景;电商用「数字人」声情并茂地介绍产品,还不用真人出镜;或者快速捣鼓出一部设定一致的短剧、小故事视频,效率和效果都能提一大截。

  • 总的来说,HunyuanCustom在「可控性」和「一致性」上表现非常突出。它能很好地理解文字、参考图像、甚至声音等多种模态的指令,生成的人物细节、动作流畅度和光影真实感都达到了业内领先水平。

那么,在哪里可以体验上呢?

它的「单主体生成」功能5月9号就已经开源了,大家可以直接去混元官网(hunyuan.tencent.com)的“模型广场-图生视频-参考生视频”里尝鲜。

其他像多主体视频生成、视频配音、视频编辑这些功能,这个月(5月)内也会陆续放出来。

感兴趣的朋友们,快去试试吧~

  硬评测  


*

(文:硬AI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往