学术
长视频性能提升6.6%!用文本数据撬动视频理解
Sparrow 通过利用长文本 QA 数据合成“伪视频指令数据”,在仅使用30K混合数据的情况下超越了100K视频数据,且在数据规模扩展上性能优势更为明显。该研究重新审视了合成数据的特性,并提出了一种新的数据增强方法——Sparrow,显著提升了模型在长视频理解上的表现。
本地也能运行Deep Research!支持arXiv平台,兼容PDF、Markdown等
本地运行的Deep Research项目能够提供深入的研究分析和信息整合功能,同时保护用户隐私。它支持多种搜索引擎、文档格式搜索以及智能分块检索。通过示例展示了强大的研究能力和跨领域分析能力。
上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理
本文介绍了一种新的多模态大规模强化学习框架MM-Eureka,该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型,并使用较少的数据实现了性能的提升。