摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA 上海AI Lab港中文等团队新作
无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。
无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。
Llasa团队分享了他们基于Transformer的语音合成模型的研究成果,该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响,并开源了代码和权重以供其他研究人员参考。
Figure的机器人通过改进后的Helix系统和视觉自体感觉模型,仅用30天便完成了从汽车工厂到物流中心的工作转型。技术升级让Figure走进工厂的速度更快了,该公司创始人表示未来四年将交付10万台人形机器人,并预计2025年成为机器人量产的关键之年。
能创始人彭博正专注于一个更宏大的愿景。
在他看来,某个模型的爆火只是AI进化的一个普通节点,真正的技
马腾宇创立的Voyage AI公司被MongoDB收购。Voyage AI专注于开发嵌入模型,用于改进AI应用程序性能和准确性,并已完成多个版本迭代和两轮融资。此次收购将使用户能够在统一的堆栈中更高效地开发AI应用。
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
阿里开源万相2.1版本,视频生成模型参数量高达14B,可实现复杂运动细节同步、文字生成等功能。支持分辨率720P的14B版本已在多平台开放下载,并计划集成ComfyUI。