MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。

CVPR 2025 Award Candidate 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

研究团队提出了一种创新方案Difix3D+,通过单步扩散模型对3D渲染结果进行‘图像修复’,显著提升新视角图像的质量和一致性。该方法已被CVPR2025接收,并入选最佳论文候选。

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

香港中文大学(深圳)和上海交通大学团队提出StreamBP算法,通过线性分解和分步计算降低大语言模型训练所需的激活值内存消耗。相比梯度检查点方法,StreamBP将内存消耗降低至20%左右,并在相同内存限制下实现更大序列长度的训练。

SamAltman提醒创业者:ChatGPT将来要做的,大家就绕开吧

MLNLP社区是国内外知名的人工智能社区,专注于机器学习与自然语言处理领域。本次采访中Sam Altman讨论了AI的未来趋势和技术应用,并分享了他对人工智能用于科学发现、机器人时代到来以及个人或小团队工作方式变革的看法。