大模型归档 - 第17页共147页 - 每时AI

一文搞定八大任务！北航×华为发布时空大模型BIGCity，打通轨迹与交通状态预测

2025年7月3日23时作者 PaperWeekly

统一轨迹和交通状态预测任务的新范式。
本文第一作者为北京航空航天大学计算机学院博士生于勰，本文的通讯

线性注意力简史：从模仿、创新到反哺

2025年7月3日23时作者 PaperWeekly

网络
在中文圈，笔者应该算是比较早关注线性 Attention 的了，在 2020 年写首篇相关文章

马斯克新模型曝光：Grok 4 和 Grok 4 Code 现身 xAI 控制台！

2025年7月3日19时作者 AI信息Gap

马斯克宣布xAI将跳过Grok 3.5，直接发布Grok 4。新模型包含两个版本：Grok 4和Grok 4 Code，具有强大的文本处理能力和编程相关任务支持。但Grok 4存在多模态限制及上下文长度不足的问题。

Agent做多模态RAG方案-MDocAgent及文档解析中的图像前处理问题

2025年7月3日14时作者老刘说NLP

2025年7月3日星期四，北京下雨。介绍了多模态RAG进展，包括ColBERT和ColPali的局限性及标准框架问题。提出使用Agent进行内容过滤，并讨论了文档预处理，特别是非印刷体文档标准化的重要性。文章还提到MDocAgent项目及其五个专门智能体的工作流程和架构选型。同时探讨了文档图像增强问题，介绍了DocRes模型及其统一五种文档图像还原任务的通用模型。

【Agent专题】通用Agent篇：自规划、多智能体协作、图像生成全都要，这才是下一代Agent的天花板！

2025年7月3日14时作者 AI技术研习社

Manus作为AI Agent的新一代先锋，支持多智能体协作与自然语言任务规划，具备高度模块化和可扩展性，能够满足不同用户需求，助力构建专属智能代理体系。

完美身材：Pony Realism上新

2025年7月3日11时作者路过银河AI

今日特别推荐Pony Realism v2.3 ULTRA版本，提升光影效果、皮肤细节和真实感。包含多个场景描述，如赛博皮衣女孩、紫色头发少女等。

北大发布OpenS2V-Nexus：500万数据集+自动评测框架，S2V视频生成迈入基建时代

2025年7月2日23时作者 PaperWeekly

://pku-yuangroup.github.io/OpenS2V-Nexus
亮点直击
全新的

ICML 2025 Entropy不灵了？北大港中文用“区域置信”重新定义模型的不确定性

2025年7月2日23时作者 PaperWeekly

来自北京大学与香港中文大学的最新研究提出 ReCAP 框架，成功打破熵最小化在 Test-Time Training 的性能瓶颈。论文提出区域置信度代理概念，通过优化区域内模型预测不确定性与稳定性之间的联系来提升下游任务泛化性能。

小红书「REDstar顶尖人才计划」全球启动！毕业三年内均可投递！

2025年7月2日23时作者 PaperWeekly

阿里巴巴发布2021年度碳中和进展报告，宣布将在2030年前实现自身运营及主要业务的碳中和目标。

继续看真实场景下文档解析的8个另外问题：公式输出重复、阅读顺序评测等

2025年7月2日14时作者老刘说NLP

今天继续记录一些关于文档解析的问题，包括内容遗漏、公式重复输出、大写识别、阅读顺序评测、合并页面和幻觉问题等8个典型问题，并探讨了这些问题在实际业务中的解决方案和理解。