AI音频时代
AI 助听器每小时进行 8000 万次实时声音调整,模拟人脑功能
Starkey MEA 在‘更好听力月’期间推出Edge AI,其核心的G2神经处理器使设备能够自动适应各种环境。Edge AI重新定义了听力支持,并具备增强用户体验的功能。
定制化AI音频简报Huxe发布 AI音频新赛道
NotebookLM 团队成员创立 Huxe 公司推出新 AI 应用,连接用户电子邮件、日历等信息流并生成个性化音频简报。Huxe 计划与现有应用集成,初期仅向选定用户开放。
奥森·威尔斯回归:StoryRabbit 推出突破性 AI 音频指南
StoryRabbit推出的‘奥森·威尔斯呈现’利用AI技术重现传奇人物声音,让用户在日常地点体验沉浸式叙事。此应用程序由Treefort Media与奥森·威尔斯遗产方合作开发,已独家通过其应用程序推出。
松下HD开发多模态生成式AI“OmniFlow”,可实现文本、图像和音频之间的任意生成
松下研发的OmniFlow多模态生成式AI技术能够自由转换文本、图像及音频等多种数据格式,即使少量包含所有三种模态的数据也能学习高精度模型,显著降低创建训练数据的成本。
使用 Gemini 2.5 进行高级音频对话和生成
Gemini 2.5 在 I/O 大会上展示了原生音频对话和生成能力,包括自然对话、风格控制、工具集成、多语言性等特性,提升了实时交互体验,并支持多种语音输出形式。
AI学习如何连接视觉和声音,无需人工干预
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。