跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

MoE

Meta华人新秀毕树超,重磅爆料下一代LLM路线!RL+预训练直通AGI

2025年8月4日16时 作者 新智元

书超在哥大指出:AGI就在眼前,突破需高质数据、好奇驱动探索与高效算法;Scaling Law依旧有

分类 资讯 标签 MoE、 Transformer、 对齐失败、 强化学习、 毕树超、 自我博弈 发表评论

从 0 手撕 LLM 分布式训练:DP, ZeRO, TP, PP, CP, EP

2025年7月7日14时 作者 GiantPandaCV

小冬瓜AIGC发布的X-R1开源框架课程,手撕PyTorch的五大并行算法DP、TP、PP、CP、EP,并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具,适合对LLM技术有兴趣的学员。

分类 学术 标签 DP、 EP、 MoE、 PyTorch、 TP、 分布式训练 发表评论

LLM不是所有!这几个模型你需要知道!

2025年6月14日8时 作者 AI工程化

本文介绍了六种AI模型:LLM、LCM、LAM、MoE、VLM和SLM的特点,包括它们的工作原理、应用场景以及关键点。这些模型在不同的任务中发挥着重要作用,如语言理解和生成、图像处理等。

分类 分享 标签 LAM、 LCM、 MoE、 Sam、 SLM、 伯克利 发表评论

小红书开源了个模型 142b,激活14b

2025年6月7日8时 作者 NLP工程化

中等规模的dots.llm1模型在仅使用11.2万亿高质量真实数据的情况下达到与Qwen2.5-72B相当的性能水平,上下文长度达32K,参数量为140亿(14B)和1420亿(142B),并提供预训练中间检查点。

分类 开源 标签 14B、 32K、 MoE、 rednote-hilab、 中等规模的文本、 高质量真实数据 发表评论

五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了

2025年5月8日23时 作者 极市干货

项目提出了一种基于上下文的零样本图像编辑框架,结合LoRA-MoE混合微调和早期噪声过滤策略,仅需极

分类 学术 标签 Diffusion Transformer、 Emu、 In-Context Edit、 LORA、 MagicBrush、 MoE 发表评论

ICLR 2025 Oral IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

2025年4月1日23时 作者 机器之心

京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文

分类 学术、 资讯 标签 ChartMoE、 InternLM-XComposer2、 MoE、 下游任务、 稀疏结构、 通用领域 发表评论

智元机器人发布首个通用具身大模型

2025年3月10日23时 作者 机器人开放社区

智元机器人发布首个通用具身基座大模型——智元启元大模型(Genie Operator-1),基于Vision-Language-Latent-Action(ViLLA)框架,由VLM和MoE组成,实现小样本快速泛化。

分类 机器人 标签 Genie Operator-1、 MoE、 Vision-Language-Latent-Action、 VLM、 姚卯青、 智元启元大模型 发表评论

月亏4亿 vs 毛利545%:MaaS商业模式的罗生门|

2025年3月4日16时 作者 甲子光年

下,第一个有关大模型的冷思考出现了。
2月9日,潞晨科技创始人尤洋在社交媒体发表了一条“暴论”:Ma

分类 资讯 标签 DeepSeek、 MoE、 Mooncake、 分布式计算、 稀疏注意力机制、 线性注意力机制 发表评论

可视化图解MOE大模型的7个核心问题:专家、路由、负载均衡及其用于视觉模态

2025年3月2日19时 作者 老刘说NLP

,可视化图解moe讲的挺不错,转载过来并做翻译,当作记录,值得收藏慢慢看。
原文在:https://

分类 大模型 标签 MoE、 文本、 稀疏参数、 老刘、 视觉、 计算效率 发表评论

最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)

2025年3月2日14时 作者 Datawhale

性且高性价比的「大型语言模型」(Large Language Model, LLM) — — Dee

分类 分享 标签 ChatGPT、 DeepSeek-R1、 GPT-3、 MoE、 Transformer架构、 开源特性 发表评论
较早文章
页面1 页面2 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×