字节开源多模态复杂文档解析模型!Dolphin:页面与元素并行解析,精准解析复杂文档!
字节跳动开源多模态AI模型Dolphin,通过两阶段机制精准解析复杂文档,支持页面级和元素级解析,并提供在线Demo及本地部署指南。
字节跳动开源多模态AI模型Dolphin,通过两阶段机制精准解析复杂文档,支持页面级和元素级解析,并提供在线Demo及本地部署指南。
集成了 Google Gemini、OpenCV 和 YOLO 等先进技术,提供图像问答、生成、编辑
SceneTracker的长时场景流估计方法,该方法能在线捕捉3D点轨迹,适用于机器人、自动驾驶等领
德国初创平台SpAItial宣布获得1300万美元种子轮融资,并发布超逼真3D基础模型。其核心技术’空间基础模型’能从文本或图片生成可探索的3D场景,应用范围包括游戏开发、影视制作、CAD工程与建筑及机器人导航等领域。