多重跨模态令牌预测归档 - 每时AI

92ms极速Token响应！VITA团队开源实时语音大模型，推理效率暴增5倍

2025年5月12日16时作者 PaperWeekly

音频输出，有效降低了体感延迟，但在生成首个音频片段时仍存在较高的等待时间，成为制约实时部署的关键瓶颈