Fish Audio 的 OpenAudio S1:新一代语音生成,让机器也能“声临其境”!

OpenAudio S1 是 Fish Audio 推出的多语言 TTS 模型,基于超过200万小时的音频数据训练,采用双自回归架构和强化学习与人类反馈技术。支持13种语言、40亿参数版本及5亿参数开源版,并具备零样本语音克隆功能。

OmniAudio:阿里通义实验室如何用360°视频开启空间音频新纪元?

Omniaudio 是阿里巴巴通义实验室推出的一种从 360° 视频生成空间音频的技术,通过自监督预训练和有监督微调提升性能。它能够直接生成 FOA 音频,并在虚拟现实和沉浸式娱乐中提供真实的 3D 音效体验。

VRAG-RL:阿里开源多模态RAG推理框架,视觉信息理解与生成的“新引擎”!

阿里巴巴通义大模型团队推出VRAG-RL多模态RAG推理框架,通过视觉感知驱动和强化学习优化提升VLMs处理视觉丰富信息的能力。支持多轮交互、动态调整策略等,应用场景包括智能文档问答、视觉信息检索、多模态内容生成等。

多模态语音表征新突破!CoGenAV:高效、鲁棒、通用的语音识别“利器”

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息,显著提升了语音识别和处理性能。仅需223小时标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。

Slidev:开发者必备!用代码打造炫酷演示文稿

Slidev 是一个专为开发者设计的开源演示工具,结合现代前端技术和需求提供强大灵活解决方案。支持代码高亮、实时编辑、主题定制、LaTeX 公式渲染和图表绘制等多种功能,适用于技术分享、教学演示和个人项目展示场景。