CVPR’25 workshop冠军方案!中科院&字节Seed提出BridgeVLA:视觉干扰、任务组合等泛化场景轻松拿捏

中科院自动化所与字节跳动联合提出BridgeVLA,通过将预训练和微调的输入输出对齐到统一的2D空间来改进3D VLA模型设计,大幅提高了数据效率和任务成功率。

MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。