Transformer八周年!Attention Is All You Need被引破18万封神

新智元报道
编辑:定慧
【新智元导读】
Transformer已满8岁,革命性论文《Attention Is All You Need》被引超18万次,掀起生成式AI革命。
Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。它让人类真正跨入了生成式AI时代。
这篇论文的被引次数已经达到了184376!
尽管当年未获「Attention」,但如今Transformer影响仍在继续。
谷歌开始收回对大模型开放使用的「善意」。
人人都爱Transformer,成为严肃学界乐此不疲的玩梗素材。

小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

小红书 hi lab 发布开源文本大模型 dots.llm1,参数量为 1420亿(142B),上下文长度32K。采用轻量级数据处理流程和MoE架构训练,相比Qwen2.5-72B在预训练阶段仅需13万GPU小时。支持多轮对话、知识理解与问答等任务,在多个测试中表现突出。

小米入局大模型赛道!开源MiMo-7B,性能超o1-mini

小米发布大模型MiMo-7B,参数70亿,在数学和代码测试中表现优异。MiMo-7B架构简单且效率高,通过MTP模块加速推理。训练数据集包含多种合成推理任务生成的数据,采用三阶段混合策略优化分布。后训练阶段通过SFT调整预训练模型,并使用高质量的强化学习数据提升性能。