CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解

CoGenAV 的核心框架由两个关键部分组成：音视频特征表示和对比生成同步训练机制。

在特征提取阶段，模型采用 ResNet 3D CNN 来分析视频中说话人的唇部动作，捕捉声音与口型之间的动态关联；同时用 Transformer 编码器提取音频中的语音信息。这些音视频特征会被精确对齐，确保“听到的声音”和“看到的嘴型”在时间上完全匹配。

对比生成同步训练通过两种方式提升模型的理解能力：

对比同步，采用 Seq2Seq Contrastive Learning 方法，增强音频与视频特征之间的对应关系，帮助模型更准确地识别声音与口型的匹配。同时引入 ReLU 激活函数，过滤掉不相关的干扰帧，提升模型在复杂环境下的稳定性。
生成同步，借助一个预训练 ASR 模型（如 Whisper）作为“老师”，将 CoGenAV 提取的音视频特征与其声学-文本表示对齐。为了弥补不同模态之间的差异，模型设计了一个轻量级适配模块（Delta Upsampler + GatedFFN MHA），有效提升了跨模态融合效率。

这套“双轮驱动”的训练策略，使 CoGenAV 在多个语音任务中都表现出色，真正实现了“听清 + 看懂”的多模态理解。

参考文献：
[1] GitHub:https://github.com/HumanMLLM/CoGenAV

[2] arivx:https://arxiv.org/pdf/2505.03186

[3] HuggingFace:https://huggingface.co/detao/CoGenAV

[4] ModelScope:https://modelscope.cn/models/iic/cogenav

[5] CoGenAV 音画同步来破局：https://mp.weixin.qq.com/s/6TqqYJSNStY6YM6Q-6vbVw

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）