Krisp宣布推出AI工具,帮助人们听起来像美国人

据The Verge报道,音频初创公司Krisp宣布推出一款AI工具,可将用户口音转换为美式英语,首批支持印度口音转换。该公司表示,这款“AI口音转换”功能能在200毫秒内完成口音切换,Krisp称此为“对话中难以察觉的延迟”,同时保留说话者的原始音色。目前,该工具已在企业环境中完成测试,测试版将登陆Krisp桌面应用,用户可在通话前或通话过程中随时启用。



Krisp的联合创始人阿尔托·米纳相(Arto Minasyan)透露,该功能的灵感源于他的亲身经历:“尽管我的英语很流利,但很多人仍听不懂我的口音。我们认为转换口音能显著提升沟通效率。经过两年研发,现在终于推出测试版。”目前该工具支持17种印度方言,未来计划扩展至菲律宾等英语口音。米纳相强调:“这无关偏见,而是现实的沟通需求。在快节奏会议中,微小误解都可能延缓决策、导致重复沟通并降低整体效率。”



Krisp并非唯一布局此领域的公司。据彭博社报道,呼叫中心公司Teleperformance SE已开始部署能“柔化”印度员工口音的AI工具。去年10月,OpenAI也为ChatGPT推出进阶语音模式,可识别包括非洲裔方言、牙买加克里奥尔语和尼日利亚皮钦语在内的多种方言,实现更自然的实时对话。


Krisp的AI口音转换功能集成在其现有的桌面应用中,作为虚拟麦克风运行,可在Zoom、Microsoft Teams、Google Meet和Webex等视频会议应用中改变某人的声音。在企业测试中,该功能让销售转化率提升了26.1%,每本书的收入增长了14.8%。不过,测试发现转换后的声音不够自然,甚至偶尔会漏掉单词。Krisp解释称,目前仍处于Beta阶段,模型将在后续更新中优化。



此外,Krisp的另一大优势在于其会议助手的实时数据采集能力。通过实时创建个人语音模型,用户可以享受到更加自然、流畅的转换效果。这也意味着该技术在处理实时语音通信方面具有很高的应用价值,有望在会议、演讲、客服等领域发挥重要作用。


从市场表现来看,Krisp不仅要面对来自DirectTrans和Teleperformance等竞争对手,后者早已推出了类似功能来改善与客户的沟通效率。但Krisp将其专注于AI驱动的个性化服务作为其竞争优势。在技术持续更新的背景下,Krisp的团队在研发上不断投入资源以优化算法、扩展语言支持与提升用户体验。通过引入多方位的用户反馈机制,Krisp能够迅速迭代产品,保持技术前沿性和市场适应性。


然而,尽管Krisp在人机交互的技术创新中确实展示出其移动性与灵活性,相应的伦理问题也随之浮现。许多人担心,使用这样的服务可能会导致个人与文化的身份认同被削弱,促使人们向一种标准化的沟通方式靠拢。这种现象可能使不同文化背景的用户失去其独特性,导致一种同质化的社会文化趋势。同时,Krisp的功能也可能被不法分子利用,例如隐藏实际口音进行欺诈或误导行为,从而影响业务正常运营及客户信任。


在业内知名专家的评论中,深度学习应用的持续扩展确实极大改善了沟通的便利性,但与此同时,各界应加强对技术使用目的以及应用场景的审视。未来,Krisp及其他AI企业在持续创新的过程中,也需建立相应的伦理标准,确保技术得到负责任的使用。专家建议,在过去的技术发展中,往往较少关注用户的文化背景及其对身份的影响,因此加强人文学科与科技的交叉研究,或能有效缓解潜在的文化冲突。


总的来说,Krisp的AI口音转换功能是一项具有突破性的技术,它有望为全球范围内的英语使用者提供更加便捷、自然的语音转换体验。尽管目前还处于发展初期,存在一些挑战和不足,但随着技术的不断优化和改进,相信这项技术将在未来发挥越来越重要的作用。


(文:AI音频时代)

发表评论