跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

MoE

从 0 手撕 LLM 分布式训练:DP, ZeRO, TP, PP, CP, EP

2025年7月7日14时 作者 GiantPandaCV

小冬瓜AIGC发布的X-R1开源框架课程,手撕PyTorch的五大并行算法DP、TP、PP、CP、EP,并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具,适合对LLM技术有兴趣的学员。

分类 学术 标签 DP、 EP、 MoE、 PyTorch、 TP、 分布式训练 发表评论

LLM不是所有!这几个模型你需要知道!

2025年6月14日8时 作者 AI工程化

本文介绍了六种AI模型:LLM、LCM、LAM、MoE、VLM和SLM的特点,包括它们的工作原理、应用场景以及关键点。这些模型在不同的任务中发挥着重要作用,如语言理解和生成、图像处理等。

分类 分享 标签 LAM、 LCM、 MoE、 Sam、 SLM、 伯克利 发表评论

小红书开源了个模型 142b,激活14b

2025年6月7日8时 作者 NLP工程化

中等规模的dots.llm1模型在仅使用11.2万亿高质量真实数据的情况下达到与Qwen2.5-72B相当的性能水平,上下文长度达32K,参数量为140亿(14B)和1420亿(142B),并提供预训练中间检查点。

分类 开源 标签 14B、 32K、 MoE、 rednote-hilab、 中等规模的文本、 高质量真实数据 发表评论

五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了

2025年5月8日23时 作者 极市干货

项目提出了一种基于上下文的零样本图像编辑框架,结合LoRA-MoE混合微调和早期噪声过滤策略,仅需极

分类 学术 标签 Diffusion Transformer、 Emu、 In-Context Edit、 LORA、 MagicBrush、 MoE 发表评论

ICLR 2025 Oral IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

2025年4月1日23时 作者 机器之心

京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文

分类 学术、 资讯 标签 ChartMoE、 InternLM-XComposer2、 MoE、 下游任务、 稀疏结构、 通用领域 发表评论

智元机器人发布首个通用具身大模型

2025年3月10日23时 作者 机器人开放社区

智元机器人发布首个通用具身基座大模型——智元启元大模型(Genie Operator-1),基于Vision-Language-Latent-Action(ViLLA)框架,由VLM和MoE组成,实现小样本快速泛化。

分类 机器人 标签 Genie Operator-1、 MoE、 Vision-Language-Latent-Action、 VLM、 姚卯青、 智元启元大模型 发表评论

月亏4亿 vs 毛利545%:MaaS商业模式的罗生门|

2025年3月4日16时 作者 甲子光年

下,第一个有关大模型的冷思考出现了。
2月9日,潞晨科技创始人尤洋在社交媒体发表了一条“暴论”:Ma

分类 资讯 标签 DeepSeek、 MoE、 Mooncake、 分布式计算、 稀疏注意力机制、 线性注意力机制 发表评论

可视化图解MOE大模型的7个核心问题:专家、路由、负载均衡及其用于视觉模态

2025年3月2日19时 作者 老刘说NLP

,可视化图解moe讲的挺不错,转载过来并做翻译,当作记录,值得收藏慢慢看。
原文在:https://

分类 大模型 标签 MoE、 文本、 稀疏参数、 老刘、 视觉、 计算效率 发表评论

最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)

2025年3月2日14时 作者 Datawhale

性且高性价比的「大型语言模型」(Large Language Model, LLM) — — Dee

分类 分享 标签 ChatGPT、 DeepSeek-R1、 GPT-3、 MoE、 Transformer架构、 开源特性 发表评论

DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价

2025年2月27日16时 作者 机器之心

DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据,旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。

分类 学术、 资讯 标签 DeepSeek、 FlashMLA、 MoE、 开源、 梁文锋、 矩阵乘法 发表评论
较早文章
页面1 页面2 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • ART:构建可靠智能体的强化学习新框架
  • 开发者必看!这个AI工具让“读懂代码”变成“复制优秀”
  • 创造历史!加速进化包揽机器人世界杯冠亚军
  • Figure推出人形机器人防火电池,续航飙升94%,成本降78%
  • Franka Robotics 机器人全新升级 从全球1400 篇论文看科研 “顶流” 如何坐稳机器人研究 “首选载体”

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×