R1-Omni:阿里通义的“情感识别神器”,多模态 AI 的新突破!

阿里通义实验室开源的R1-Omni模型首次将强化学习与可验证奖励(RLVR)技术应用于全模态情感识别任务,提升推理能力和泛化能力。该模型通过透明展示各个模态信息的作用和多模态融合增强了性能,并在多个数据集上显著优于其他模型。

SpatialVLA:机器人界的”三维导航仪”!上海AI Lab黑科技实现跨平台秒级控制

SpatialVLA模型通过Ego3D位置编码和自适应动作网格等技术提升了机器人在复杂环境中的空间理解能力和操作泛化性能,实现零样本泛化控制、高效适应新场景等功能。

播客创作者的福音!港中文、微软、小红书联合推出PodAgent,多智能体协作超给力!

香港中文大学联合微软和小红书发布PodAgent技术成果,实现播客全流程自动化生成。其主要功能包括智能语音合成、质量评估与迭代等。该系统通过多智能体协作技术和大语言模型,大幅降低播客创作门槛,并在媒体、教育、企业等领域具有广泛应用前景。