CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解

CoGenAV 的核心框架由两个关键部分组成:音视频特征表示和对比生成同步训练机制。

在特征提取阶段,模型采用 ResNet 3D CNN 来分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联;同时用 Transformer 编码器提取音频中的语音信息。这些音视频特征会被精确对齐,确保“听到的声音”和“看到的嘴型”在时间上完全匹配。

对比生成同步训练通过两种方式提升模型的理解能力:

  • 对比同步,采用 Seq2Seq Contrastive Learning 方法,增强音频与视频特征之间的对应关系,帮助模型更准确地识别声音与口型的匹配。同时引入 ReLU 激活函数,过滤掉不相关的干扰帧,提升模型在复杂环境下的稳定性。

  • 生成同步,借助一个预训练 ASR 模型(如 Whisper)作为“老师”,将 CoGenAV 提取的音视频特征与其声学-文本表示对齐。为了弥补不同模态之间的差异,模型设计了一个轻量级适配模块(Delta Upsampler + GatedFFN MHA),有效提升了跨模态融合效率。

这套“双轮驱动”的训练策略,使 CoGenAV 在多个语音任务中都表现出色,真正实现了“听清 + 看懂”的多模态理解。

参考文献:
[1] GitHub:https://github.com/HumanMLLM/CoGenAV

[2] arivx:https://arxiv.org/pdf/2505.03186

[3] HuggingFace:https://huggingface.co/detao/CoGenAV

[4] ModelScope:https://modelscope.cn/models/iic/cogenav

[5] CoGenAV 音画同步来破局:https://mp.weixin.qq.com/s/6TqqYJSNStY6YM6Q-6vbVw



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往