炙手可热的 AI 音频初创公司 ElevenLabs 获得 1.8亿美金C轮融资

ElevenLabs,虽然还叫初创公司,但却是在AI音频领域最为知名的,宣布已完成1.8亿美元的C轮融资,融资后公司估值达到33亿美元。a16z和ICONIQ Growth联合领投本轮融资。

这笔资金将用于继续开发ElevenLabs的音频工具以及业务拓展。

公司联合创始人兼首席执行官马蒂·斯坦尼舍夫斯基(Mati Staniszewski)在接受采访时表示,这家初创公司正专注于研究更具表现力和控制力的音频AI模型。斯坦尼舍夫斯基补充说,公司还在专注于“全能模型”:将基于文本的模型与其音频模型相结合,以实现多模态交互。

一年以来,投资者对ElevenLabs的兴趣一直非常热烈,这背后有两股重要的推动力量。首先,生成式AI领域掀起了一股巨大的炒作浪潮,许多公司都受其影响。其次,ElevenLabs已成为提供合成语音技术的主要玩家之一。数十家主流出版商和内容创作者,涵盖媒体、游戏等垂直领域,以及许多其他科技初创公司,都在使用ElevenLabs的技术来支持其语音和音频功能。

不出所料,这导致了一轮非常拥挤的融资,吸引了众多知名投资者的参与。

本轮C轮融资的新投资者包括NEA、世界创新实验室(WiL)、Valor、Endeavor Catalyst Fund和阿布扎比投资公司Lunate。过往投资者也参与了本轮融资,包括红杉资本、Salesforce Ventures、Smash Capital、SV Angel、NFDG和BroadLight Capital。

此外,ElevenLabs还吸引了一些新的战略投资者,即那些使用其技术的公司现在也在对其进行投资。这些公司包括德国电信、LG技术风投、HubSpot风投、NTT DOCOMO风投和RingCentral风投。

ICONIQ合伙人塞斯·皮埃尔庞特(Seth Pierrepont)将加入公司董事会,与来自a16z的詹妮弗·李(Jennifer Li)以及公司的联合创始人一同担任董事。

ICONIQ一直在加大对生成式AI初创公司的投资力度。在书面输出方面,该公司去年11月还联合领投了Writer公司2亿美元的融资。

“我们一直认为音频是一种非常重要的模态,我们认为在这个领域将会诞生一家非常伟大的公司,”皮埃尔庞特解释道。“我们从ElevenLabs成立之初就一直在关注它,我们对其技术的质量、它在市场份额和势头方面的快速崛起,以及创始人的深厚领域专业知识印象深刻。”

皮埃尔庞特补充说,作为董事会成员,他与公司的很多对话都将围绕创造音频的新用例以及寻找适合它的市场展开。

在当前初创公司仍面临融资增长挑战的时期,值得注意的是,ElevenLabs仅在一年前就完成了8000万美元的B轮融资,当时公司估值为10亿美元。截至目前,ElevenLabs已累计融资2.81亿美元。

1

产品路线图

除了专注于改进其人工智能模型外,该公司还计划利用这笔资金发展其对话式AI构建器,旨在通过直接方式和合作伙伴关系触达更多消费者。

联合创始人彼得·达布科夫斯基和马蒂·斯塔尼舍夫斯基。

去年,该公司推出了一个AI对话代理平台,而该平台产品的关键部分就是开发一个语音转文字组件。斯塔尼舍夫斯基指出,公司希望在这一领域取得更大进步。

“我们想要更好地理解你在对话中所说的内容。我们正在研究如何摆脱仅生成内容以及理解和转录语音的局限,”斯塔尼舍夫斯基说道。“很多人说语音转文字问题已经解决了。但对于许多语言来说,情况仍然很糟糕。我们认为我们可以构建更好的语音识别模型,因为我们拥有内部团队来标注数据并为我们提供快速反馈。”

该公司还计划加大对AI驱动的对话代理的投入,通过支持传统通信方式(如电话)以及更好地集成不同类型的知识源来实现。这也是本轮融资中与电信运营商合作的部分原因。

此外,其客户也在利用ElevenLabs的技术来挖掘自己的档案资源。去年,ElevenLabs与《时代》杂志合作,部署了一个对话式机器人,让用户能够就《时代》年度人物提出问题。

斯塔尼舍夫斯基表示,公司设想在更多网站上部署对话式AI代理:例如,在新闻网站上,用户将能够就文章提出问题或要求机器人对文章进行总结。

这位首席执行官还指出,虽然AI驱动的语音机器人的质量已经有所提高,但在与人类以不同方式说话或表达情感时,如何听起来自然的问题尚未得到解决。

“我与你说话的方式会影响你的反应或回应。有时我会很兴奋,有时我会很平静,有时我会打断你。你会相应地回应我。当前一代AI解决方案已经接近优秀,但它们还比不上人类,”斯塔尼舍夫斯基说道。

ICONIQ的皮埃尔庞特也强调,如果AI在你说话时不能很好地理解你,那么机器通信就会中断,用户也会立即失去兴趣。

ElevenLabs主要通过B2B合作伙伴关系来扩大其影响力(和收入渠道)。但它也在直接拓展业务。

2024年,这家初创公司推出了其首个纯面向消费者的产品——ElevenLabs Reader,这是一款可以朗读文章、文本和文档的应用程序。后来,该公司又增加了使用生成式AI声音从文档和网页创建播客的功能,这与谷歌的NotebookLM所能做的相似。斯塔尼舍夫斯基表示,公司希望拓展更多消费者体验。

实际上,该公司可能已经在这样做了。TechCrunch发现,ElevenLabs一直在其Reader应用程序上测试一个程序,邀请用户在该平台上发布有声读物。该公司还希望为创作者提供工具,让他们未来能够使用多种声音朗读有声读物,同时创造更好的本地化体验。

斯塔尼舍夫斯基指出,公司正在寻找方法,让用户和企业更好地分发他们的内容,包括在其自己的应用程序上。这是否会让公司与其客户产生直接竞争,将是一个值得观察的问题。(这也是许多B2B科技公司宁愿避免直接面向消费者业务的原因之一。)值得注意的是,ElevenLabs为音频内容平台(如Lightspeed支持的Pocket FM和谷歌支持的Kuku FM)提供语音技术支持。

ElevenLabs已经为Perplexity、Rabbit R1、Chess.com、ESPN、Lex Fridman播客、《大西洋周刊》和Synthesia等产品和平台提供了AI生成的音频。公司的目标是出现在更多地方,并拥有端到端的对话堆栈,以便为其客户创造更多体验和见解。

2

安全性

ElevenLabs 的成功之路并非全然阳光明媚,其技术也卷入了一些备受瞩目的误导性信息宣传活动。威胁情报公司 Recorded Future 公司最近的一份报告发现,ElevenLabs的产品曾被用于一场俄罗斯宣传活动。去年,有人利用该公司的语音平台创建了乔·拜登的音频深度伪造内容。2023 年,Motherboard 报道称,4chan 成员据称使用该人工智能音频生成工具创建了听起来像乔·罗根、本·夏皮罗和艾玛·沃特森的声音,以传播不良内容。

但该公司迅速作出了回应。目前,该公司已制定政策,禁止“未经授权、有害或欺骗性的冒充行为”。此外,该公司还采用机器主导和人工审核相结合的方式,以剔除此类内容。然而,随着公司工具集的扩展以及与消费者的直接接触点增多,这也为恶意行为者寻找滥用途径提供了更多机会。

“作为人工智能音频领域的先行者之一,我们认为在开发技术的同时建立正确的安全机制是我们的责任。我们经常会做出选择,优先考虑安全性,而非部署速度或商业利益,”斯坦尼斯泽夫斯基(Staniszewski)表示。

斯坦尼斯泽夫斯基补充说,虽然该公司遵循 C2PA 标准(一种使用元数据追踪内容的标准),但它还提供了一个公共工具,允许任何人通过该公司在音频生成过程中嵌入的数字签名来检查音频是否是通过 ElevenLabs 技术生成的。随着滥用手段的不断复杂化,这一方法也可能在未来继续发展和完善。

(文:AI音频时代)

发表评论