跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

PaperAgent

刚刚,高效部署DeepSeek R1的秘密被DeepSeek公开了~

2025年2月25日19时 作者 PaperAgent

DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。

分类 分享 标签 DeepEP、 FP8、 MoE模型、 NVLINK、 RDMA、 专家混合 发表评论

DeepSeek开源周Day1,硬核发布…

2025年2月25日19时 作者 PaperAgent

DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。

分类 分享 标签 3000GB/s、 580TFLOPS、 BF16、 DeepSeek、 FlashMLA、 HopperGPU 发表评论

阿里QwQ-Max 以及 Qwen2.5-Max即将开源

2025年2月25日19时 作者 PaperAgent

阿里发布Qwen Chat中的新模型’思考(QwQ)’,基于Qwen2.5-Max的推理模型,支持思考、联网和Agent工具。预览版本在数学理解、编程和代理方面表现优异,计划于近期开放源代码并发布正式版APP。

分类 分享 标签 Qwen、 QwQ-Max-Preview、 代理、 推理模型、 数学理解、 阿里 发表评论

Kimi 模型,硬核开源…

2025年2月24日14时 作者 PaperAgent

AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。

分类 分享 标签 3B/16B参数、 5.7T tokens、 kimi、 Moonshot AI、 Muon优化器、 混合专家模型 发表评论

首篇多模态 RAG 全栈技术综述出炉~

2025年2月24日14时 作者 PaperAgent

本文介绍了多模态RAG系统的研究进展,包括检索策略、融合机制、增强技术、生成方法和训练策略等方面,并对这些领域的创新进行了详细分析。

分类 分享 标签 MIPS、 变体、 数据集、 检索策略、 生成方法、 评估方法 发表评论

智能体概念

2025年2月23日14时 作者 PaperAgent

文章介绍了智能体的概念及其特性,并讨论了多模态和多智能体Agent的应用。强调了GPT系列语言模型在提高Agent与用户交互能力方面的作用。

分类 分享 标签 agent、 人机交互、 复杂任务、 大型预训练语言模型、 未提及、 未知 发表评论

Deepseek还是Grok3?不如全都要!南洋理工联手IDEA提出多智能体路由方案MasRouter

2025年2月23日14时 作者 PaperAgent

多智能体系统领域提出MasRouter框架,通过选择合适的协作模式、角色分配和LLM调度,实现每个任务的最佳智能体团队定制。

分类 分享 标签 LLM、 LLM调度、 MASR、 协作模式、 智能体系统、 角色分配 发表评论

微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~

2025年2月21日14时 作者 PaperAgent

微软发布OmniParser V2,一款开源屏幕解析工具,能够将任何LLM变成能操作计算机的Agent,并包含改进后的数据集和模型,实现更低延迟和更高准确率。

分类 分享 标签 Florence-2、 LLM、 OmniParser V2、 Qwen、 YOLOv8、 微软 发表评论

刚刚,DeepSeek全新注意力机制NSA发布,超快速长文训练与推理~

2025年2月19日14时 作者 PaperAgent

DeepSeek官推发布NSA技术成果,一种面向硬件且支持原生训练的稀疏注意力机制,显著提升了长上下文训练与推理速度和成本。

分类 分享 标签 64k、 NSA、 动态分层稀疏策略、 梁文锋、 粗粒度的token压缩、 细粒度的token选择 发表评论

X-R1: 3B中文推理开源, 支持LoRA训练

2025年2月19日14时 作者 PaperAgent

X-R1更新日志包括支持LoRA训练、发布中文训练配置及模型,成功进行大规模强化学习训练,增加标准实验脚本,支持3B模型的中文推理,并在Ascend 910B上运行成功。

分类 分享 标签 7500、 LORA、 X-R1-1.5B、 X-R1-3B、 华为Ascend 910B、 奖励曲线 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面18 页面19 页面20 … 页面30 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 10 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 9 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×