全球首个多模态交互 3D 大模型上线,GPT-4o 没做到的,它先做到了!
GPT-4o 和 Neural4D 2o 是全球首个支持多模态交互的 AI 大模型,实现了文本、图像、3D 等多种模态之间的高效统一处理,大幅提升了内容创作和编辑效率。
GPT-4o 和 Neural4D 2o 是全球首个支持多模态交互的 AI 大模型,实现了文本、图像、3D 等多种模态之间的高效统一处理,大幅提升了内容创作和编辑效率。
Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案,通过挖掘大模型自身的推理潜力,实现对图像质量的深度理解,并在多个任务上达到业界领先水平。
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。
阿里发布全新 Qwen2.5-Omni 多模态大模型,支持语音和视频聊天,并开源了7B参数的Thinker-Talker架构模型,性能优于单模态模型。