Transformer架构归档 - 第2页共5页 - 每时AI

小米小爱同学：资源受限下，实现端侧大模型的高性能推理

2025年6月25日16时作者 AI前线

有效部署到端侧设备
，成为产业界面临的重要工程挑战。手机、车载、IoT 等设备对模型体积、推理时延、

LLM 自回归+Diffusion Loss？Orthus：仅需72小时训练时间，即可高精度多模态生成

2025年6月17日23时作者极市干货

型
Orthus，可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本

Transformer八周年！Attention Is All You Need被引破18万封神

2025年6月13日16时作者新智元

新智元报道
编辑：定慧
【新智元导读】
Transformer已满8岁，革命性论文《Attention Is All You Need》被引超18万次，掀起生成式AI革命。
Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。它让人类真正跨入了生成式AI时代。
这篇论文的被引次数已经达到了184376！
尽管当年未获「Attention」，但如今Transformer影响仍在继续。
谷歌开始收回对大模型开放使用的「善意」。
人人都爱Transformer，成为严肃学界乐此不疲的玩梗素材。

小红书hi lab首次开源文本大模型，训练资源不到Qwen2.5 72B 的四分之一

2025年6月6日23时作者 AI前线

小红书 hi lab 发布开源文本大模型 dots.llm1，参数量为 1420亿（142B），上下文长度32K。采用轻量级数据处理流程和MoE架构训练，相比Qwen2.5-72B在预训练阶段仅需13万GPU小时。支持多轮对话、知识理解与问答等任务，在多个测试中表现突出。

牛津大学等深挖746万成年人健康数据开发早筛算法，基于血液指标实现15种癌症早期预测

2025年5月27日11时作者 HyperAI超神经

队合作，基于英格兰地区 746 万成年人的匿名电子健康记录，开发了 2 种新型癌症预测算法：基础算法

小米入局大模型赛道！开源MiMo-7B，性能超o1-mini

2025年5月1日11时作者 AIGC开放社区

小米发布大模型MiMo-7B，参数70亿，在数学和代码测试中表现优异。MiMo-7B架构简单且效率高，通过MTP模块加速推理。训练数据集包含多种合成推理任务生成的数据，采用三阶段混合策略优化分布。后训练阶段通过SFT调整预训练模型，并使用高质量的强化学习数据提升性能。

只需 0.5B 参数，全面覆盖预训练+SFT + RL！极简自回归视觉生成框架SimpleAR

2025年4月28日23时作者极市干货

的极简自回归视觉生成框架。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
本文目录
1 Si

阿里巴巴开源LHM：只需一张照片，秒变可动画3D数字人！

2025年4月28日14时作者小兵的AI视界

知识和大量的时间，而新兴的
AI
驱动的
3D
生成技术正在改变这一局面。
阿里巴巴通义实验室最近开

围观！斯坦福最火AI课全球免费开讲，顶级大佬亲授Transformer精髓，课表全放送

2025年4月23日23时作者 AI寒武纪

斯坦福推出免费在线课程CS25: Transformers United V5，涵盖Transformer架构及其应用，包括语言模型、强化学习、AGI等前沿话题。