MoE 归档 - 每时AI

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

2025年8月4日16时作者新智元

书超在哥大指出：AGI就在眼前，突破需高质数据、好奇驱动探索与高效算法；Scaling Law依旧有

2025年7月7日14时作者 GiantPandaCV

小冬瓜AIGC发布的X-R1开源框架课程，手撕PyTorch的五大并行算法DP、TP、PP、CP、EP，并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具，适合对LLM技术有兴趣的学员。

2025年6月7日8时作者 NLP工程化

中等规模的dots.llm1模型在仅使用11.2万亿高质量真实数据的情况下达到与Qwen2.5-72B相当的性能水平，上下文长度达32K，参数量为140亿（14B）和1420亿（142B），并提供预训练中间检查点。

2025年5月8日23时作者极市干货

项目提出了一种基于上下文的零样本图像编辑框架，结合LoRA-MoE混合微调和早期噪声过滤策略，仅需极

2025年4月1日23时作者机器之心

京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文

2025年3月10日23时作者机器人开放社区

智元机器人发布首个通用具身基座大模型——智元启元大模型（Genie Operator-1），基于Vision-Language-Latent-Action(ViLLA)框架，由VLM和MoE组成，实现小样本快速泛化。

2025年3月4日16时作者甲子光年

下，第一个有关大模型的冷思考出现了。
2月9日，潞晨科技创始人尤洋在社交媒体发表了一条“暴论”：Ma

2025年3月2日19时作者老刘说NLP

，可视化图解moe讲的挺不错，转载过来并做翻译，当作记录，值得收藏慢慢看。
原文在：https://