大模型归档 - 第2页共147页

Attention总跑偏？人大×清华联合提出LeaF：剪掉干扰Token，让模型学会主动聚焦

2025年8月5日23时作者 PaperWeekly

因果关键特征，从而提升推理准确性与泛化能力。
论文标题：
Learning to Focus: Ca

2025年8月5日14时作者老刘说NLP

2025年8月5日，北京晴。本文介绍了一种新的多模态RAG方法MMRAG-DocQA，旨在解决跨页文档中的多模态关联和证据整合问题，通过层级化索引和细粒度检索策略提高问答系统的准确性和一致性。

2025年8月5日14时作者 AI探索时代

文章提到数据分析和长文本处理是企业应用中最有价值的两个场景。大模型技术提升了数据处理速度，并通过RAG等技术解决了长文本处理问题。

2025年8月5日14时作者 AI信息Gap

Anthropic 宣布从 2025 年 8 月起对 Claude Pro 和 Max 引入每周使用量上限。此政策主要针对重度用户，引发用户不满。Anthropic 提出三个限流理由：过度使用、违规倒卖以及系统压力过大。

2025年8月5日12时作者路过银河AI

文章介绍了希腊神话中的珀耳塞福涅，她是冥王哈迪斯的妻子。由于她的出现导致大地万物凋零，宙斯和哈迪斯商议每年让珀耳塞福涅回地面几个月。Persephone模型则基于这个故事命名，并支持NSFW内容。文章还展示了该模型相关的多张人物肖像特写图片。

2025年8月4日23时作者 PaperWeekly

扩散模型（Diffusion Models）凭借出色的生成质量，迅速成为图像、视频、语音、3D 内容

2025年8月4日23时作者 PaperWeekly

com/p/14369935885
现在开源社区对 RoPE 的评价是两种一边倒，要么只褒，要么只贬

2025年8月4日14时作者老刘说NLP

2025年8月4日，北京晴天，《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》技术总结，涵盖GPTE架构、数据及多模态embedding模型，重点整理9点内容。

2025年8月4日14时作者 AI技术研习社

文章介绍了构建人工智能代理的8个关键步骤，包括明确目标、选择合适的大模型、使用智能编排框架、集成向量数据库赋予记忆能力、配备工具执行任务、实现RAG流水线、进行安全评估与风险防控以及通过MLOps实现高效部署与运维。