Transformer架构
训练大模型玩《反恐精英》:自带外挂一枪爆头,堪比职业玩家
专注于AIGC领域,介绍微软、百度文心一言等大语言模型的发展和应用。文章提及动视暴雪、斯坦福大学和英伟达研发的游戏大模型MLMOVE,展示其在《反恐精英:全球攻势》中的表现,并对比传统AI的不足之处。
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
字节发布多主体控制生成模型Xverse,可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分,并通过XVerseBench基准测试验证其效果。
ICML 2025 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
,彩云科技CEO袁行远。
残差连接(residual connections)自何恺明在 2015
Windows最新搭载微软自研模型Mu,一句话搞定所有系统配置
微软发布的新语言模型Mu让Windows 11设置界面拥有了自己的AI助手,用户只需简单提问即可获得设置建议。Mu针对小规模部署进行了优化,在NPU上高效运行,性能堪比330M大小的Phi-3.5-mini。
LLM 自回归+Diffusion Loss?Orthus:仅需72小时训练时间,即可高精度多模态生成
型
Orthus,可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本
Transformer八周年!Attention Is All You Need被引破18万封神
新智元报道
编辑:定慧
【新智元导读】
Transformer已满8岁,革命性论文《Attention Is All You Need》被引超18万次,掀起生成式AI革命。
Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。它让人类真正跨入了生成式AI时代。
这篇论文的被引次数已经达到了184376!
尽管当年未获「Attention」,但如今Transformer影响仍在继续。
谷歌开始收回对大模型开放使用的「善意」。
人人都爱Transformer,成为严肃学界乐此不疲的玩梗素材。
小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一
小红书 hi lab 发布开源文本大模型 dots.llm1,参数量为 1420亿(142B),上下文长度32K。采用轻量级数据处理流程和MoE架构训练,相比Qwen2.5-72B在预训练阶段仅需13万GPU小时。支持多轮对话、知识理解与问答等任务,在多个测试中表现突出。