PaperAgent

刚刚，高效部署DeepSeek R1的秘密被DeepSeek公开了~

2025年2月25日19时作者 PaperAgent

DeepSeek的开源周Day2发布了DeepEP库，这是一个为MoE模型训练和推理定制的通信库，支持高吞吐量、低延迟的All-to-All GPU内核，并提供针对非对称域带宽转发优化的内核。

2025年2月25日19时作者 PaperAgent

DeepSeek开源了FlashMLA，这是一个为Hopper GPU开发的高效MLA解码内核，已投入生产使用，支持BF16和分页KV缓存（块大小64），在H800上可实现高达580 TFLOPS的计算性能。

2025年2月25日19时作者 PaperAgent

阿里发布Qwen Chat中的新模型’思考(QwQ)’，基于Qwen2.5-Max的推理模型，支持思考、联网和Agent工具。预览版本在数学理解、编程和代理方面表现优异，计划于近期开放源代码并发布正式版APP。

2025年2月24日14时作者 PaperAgent

AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B，其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升，并开源了分布式Muon实现版本和预训练模型。

2025年2月24日14时作者 PaperAgent

本文介绍了多模态RAG系统的研究进展，包括检索策略、融合机制、增强技术、生成方法和训练策略等方面，并对这些领域的创新进行了详细分析。

2025年2月23日14时作者 PaperAgent

文章介绍了智能体的概念及其特性，并讨论了多模态和多智能体Agent的应用。强调了GPT系列语言模型在提高Agent与用户交互能力方面的作用。

2025年2月23日14时作者 PaperAgent

多智能体系统领域提出MasRouter框架，通过选择合适的协作模式、角色分配和LLM调度，实现每个任务的最佳智能体团队定制。

2025年2月21日14时作者 PaperAgent

微软发布OmniParser V2，一款开源屏幕解析工具，能够将任何LLM变成能操作计算机的Agent，并包含改进后的数据集和模型，实现更低延迟和更高准确率。

2025年2月19日14时作者 PaperAgent

DeepSeek官推发布NSA技术成果，一种面向硬件且支持原生训练的稀疏注意力机制，显著提升了长上下文训练与推理速度和成本。

2025年2月19日14时作者 PaperAgent

X-R1更新日志包括支持LoRA训练、发布中文训练配置及模型，成功进行大规模强化学习训练，增加标准实验脚本，支持3B模型的中文推理，并在Ascend 910B上运行成功。

较早文章

较新文章