92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍 下午4时 2025/05/12 作者 PaperWeekly 音频输出,有效降低了体感延迟,但在生成首个音频片段时仍存在较高的等待时间,成为制约实时部署的关键瓶颈