VITA-Audio:开源超越GPT-4o?端到端延迟仅1.5秒,语音识别误差率低至7.5! 下午2时 2025/05/11 作者 小兵的AI视界 一,成为人机交互的重要研究方向。然而, 现有的语音模型在流式处理中生成首个音频标记时仍面临高延迟问题