学术归档 - 第42页共283页

MonkeyOCR：华科开源高效文档解析模型，精度超越闭源大模型、速度还更快！

2025年6月23日23时作者极市干货

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果，相比MinerU、Qwen2.5-VL等开源和闭源大模型，在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法，并基于大规模标注数据集MonkeyDoc进行训练。

2025年6月23日23时作者机器之心

到日常生活，都能看到它们的身影。然而，现代机器人导航系统在多样化和复杂的室内环境中面临着诸多挑战，传

2025年6月23日23时作者 PaperWeekly

最新研究，提出 LensLLM 框架，不仅能精准预测大模型微调性能，更大幅降低计算成本，让 LLM

2025年6月23日23时作者极市干货

术，通过巧妙地利用特征缓存机制，成功攻克了MAR模型在计算效率方面的瓶颈，不仅实现了高达 2.83

2025年6月23日16时作者机器之心

研究团队提出了一种创新方案Difix3D+，通过单步扩散模型对3D渲染结果进行‘图像修复’，显著提升新视角图像的质量和一致性。该方法已被CVPR2025接收，并入选最佳论文候选。

2025年6月23日16时作者机器之心

斯坦福大学 CS336 课程发布，引领学生从零开始开发自己的语言模型，涵盖基础、系统等多个单元。

2025年6月23日16时作者机器之心

马斯克兑现承诺，特斯拉启动自动驾驶出租车服务。用户以4.2美元体验，主要面向支持者测试初期表现平稳但尚不成熟。

2025年6月23日16时作者机器之心

工作在伊利诺伊大学厄巴纳-香槟分校张欢教授与 Saurabh Gupta 教授，加州大学伯克利分校

2025年6月23日16时作者机器之心

香港中文大学（深圳）和上海交通大学团队提出StreamBP算法，通过线性分解和分步计算降低大语言模型训练所需的激活值内存消耗。相比梯度检查点方法，StreamBP将内存消耗降低至20%左右，并在相同内存限制下实现更大序列长度的训练。

MLNLP社区是国内外知名的人工智能社区，专注于机器学习与自然语言处理领域。本次采访中Sam Altman讨论了AI的未来趋势和技术应用，并分享了他对人工智能用于科学发现、机器人时代到来以及个人或小团队工作方式变革的看法。