松下HD开发多模态生成式AI“OmniFlow”,可实现文本、图像和音频之间的任意生成

松下研发的OmniFlow多模态生成式AI技术能够自由转换文本、图像及音频等多种数据格式,即使少量包含所有三种模态的数据也能学习高精度模型,显著降低创建训练数据的成本。

AI学习如何连接视觉和声音,无需人工干预​

研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。