速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音
ElevenLabs筹集1.8亿美元支持其首个独立语音转文本模型Scribe,旨在与竞争对手如Gladia、Speechmatics等竞争。该模型在超过99种语言中表现优异,已在多家企业提供服务,并正进军语音检测领域。
ElevenLabs筹集1.8亿美元支持其首个独立语音转文本模型Scribe,旨在与竞争对手如Gladia、Speechmatics等竞争。该模型在超过99种语言中表现优异,已在多家企业提供服务,并正进军语音检测领域。
无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。
Figure公司通过自研VLA模型Helix,在8小时内训练完成机器人包裹分拣任务,并实现超越人类的效率和精度,展示了视觉-运动控制策略在物流场景中的巨大潜力。
Llasa团队分享了他们基于Transformer的语音合成模型的研究成果,该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响,并开源了代码和权重以供其他研究人员参考。
Figure的机器人通过改进后的Helix系统和视觉自体感觉模型,仅用30天便完成了从汽车工厂到物流中心的工作转型。技术升级让Figure走进工厂的速度更快了,该公司创始人表示未来四年将交付10万台人形机器人,并预计2025年成为机器人量产的关键之年。
趋境科技通过 ‘以存换算’ 和全系统异构协同优化技术,成功突破了千亿参数模型落地过程中的成本高企与性能折损问题。该公司完成了数千万元天使轮融资,并推出软硬一体工作站降低大模型部署门槛。
英伟达公布2025财年第四季度财报,营收创历史新高。数据中心营收达到356亿美元,全财年营收1305亿美元,同比增长114%。老黄感谢DeepSeek,称其带来了新的Scaling Law,使推理计算量增加100倍。英伟达股价在财报公布后有所上涨。