喝点VC|a16z剖析2024年AI语音发展:产品数量激增、B2B垂直应用为重点
AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施,使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升,集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。
AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施,使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升,集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。
Podcasting平台Podcastle发布AI文本转语音模型Asyncflow v1.0,提供超过450种AI语音,加入ElevenLabs、Speechify和WellSaid等竞争对手行列。该公司表示,得益于近期大型语言模型的发展,其能够在不需大量数据的情况下构建高质量的语音模型。
今天看GitHub上的GibberLink项目DEMO时震惊了,两个AI在对话中会自动切换到人类听不懂的语言。其最大意义在于让AI通过非文本化的声音信号进行信息交换,介绍了项目的原理及其应用场景,如隐私通信、低带宽传输和协作通信等。
ElevenLabs筹集1.8亿美元支持其首个独立语音转文本模型Scribe,旨在与竞争对手如Gladia、Speechmatics等竞争。该模型在超过99种语言中表现优异,已在多家企业提供服务,并正进军语音检测领域。
ElevenLabs宣布完成1.8亿美元C轮融资,估值达33亿美元,用于开发音频工具及拓展业务。公司专注于更具表现力和控制力的音频AI模型,并推出对话式AI构建器以触达更多消费者。
ElevenLabs,一家专注于合成语音技术的初创公司,在短短一年内完成了2.5亿美元C轮融资,估值在30亿到33亿美元之间。该公司致力于开发AI语音克隆和配音工具,并且已经与多家知名企业合作。
NotebookLM团队负责人宣布离职创业引发关注。其推出的AI播客功能使用户只需一个链接或文档几分钟内就能转成高质量对谈音频。ElevenLabs和PodLM.ai等初创公司也推出了类似功能,使人人可以做AI播客成为可能。
ElevenLabs 推出GenFM功能,允许用户通过上传文本、视频或文档创建多语音播客。该功能支持32种语言,目前可在其iOS应用程序中找到。