西安交大、港科广开源FortisAVQA数据集,配套MAVEN模型助力鲁棒音视频问答 下午11时 2025/04/20 作者 PaperWeekly 战性的多模态推理任务,需要智能系统理解音频-视频输入,准确回答自然语言查询。 然而,现有的 AVQA