速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音

ElevenLabs筹集1.8亿美元支持其首个独立语音转文本模型Scribe,旨在与竞争对手如Gladia、Speechmatics等竞争。该模型在超过99种语言中表现优异,已在多家企业提供服务,并正进军语音检测领域。

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA 上海AI Lab港中文等团队新作

无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。

Figure机器人进厂打工,8小时速成物流分拣大师!自研VLA模型全面升级

Figure公司通过自研VLA模型Helix,在8小时内训练完成机器人包裹分拣任务,并实现超越人类的效率和精度,展示了视觉-运动控制策略在物流场景中的巨大潜力。

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 港科大等开源

Llasa团队分享了他们基于Transformer的语音合成模型的研究成果,该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响,并开源了代码和权重以供其他研究人员参考。

机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天

Figure的机器人通过改进后的Helix系统和视觉自体感觉模型,仅用30天便完成了从汽车工厂到物流中心的工作转型。技术升级让Figure走进工厂的速度更快了,该公司创始人表示未来四年将交付10万台人形机器人,并预计2025年成为机器人量产的关键之年。

趋境科技获高瓴创投、Z基金领投天使轮,助力企业10倍降本部署DeepSeek|

趋境科技通过 ‘以存换算’ 和全系统异构协同优化技术,成功突破了千亿参数模型落地过程中的成本高企与性能折损问题。该公司完成了数千万元天使轮融资,并推出软硬一体工作站降低大模型部署门槛。

黄仁勋:感谢DeepSeek!英伟达财报破纪录,Blackwell开卖血赚800亿老黄笑疯

英伟达公布2025财年第四季度财报,营收创历史新高。数据中心营收达到356亿美元,全财年营收1305亿美元,同比增长114%。老黄感谢DeepSeek,称其带来了新的Scaling Law,使推理计算量增加100倍。英伟达股价在财报公布后有所上涨。