Transformer架构归档

御三家打起来了：OpenAI 开源、谷歌发布可交互的世界模型、Claude 4.1 成了编程新旗舰

2025年8月6日12时作者 Founder Park

硅谷三巨头同日发布新模型，OpenAI开源两款参数量接近o4-mini的GPT-oss模型；DeepMind推出Genie3世界模型实现实时交互和高一致性场景；Anthropic发布Claude Opus 4.1，提升智能体任务及编程能力。

2025年8月6日8时作者新智元

OpenAI发布两款开源大模型gpt-oss-120b和gpt-oss-20b，参数规模分别达到1170亿和210亿，在推理性能上可与旗舰级o3-mini、o4-mini媲美。

2025年7月26日23时作者智东西

，今日，世界人工智能大会开幕，在上海一家AI创企的展台前，我们目睹了中国AI创业公司正向着主流Tra

2025年7月21日14时作者老刘说NLP

.2,Qwen3-4B,SmolLM3-3B,DeepSeek-V3,Qwen3-235B-A22B

2025年7月9日23时作者机器之心

Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」
近日，Mamba 作者、CMU 助理

2025年7月5日16时作者 AIGC开放社区

专注于AIGC领域，介绍微软、百度文心一言等大语言模型的发展和应用。文章提及动视暴雪、斯坦福大学和英伟达研发的游戏大模型MLMOVE，展示其在《反恐精英：全球攻势》中的表现，并对比传统AI的不足之处。

2025年7月2日23时作者量子位

字节发布多主体控制生成模型Xverse，可以精确控制多个主体的身份和语义属性。该模型包括T-Mod适配器、文本流调制机制、VAE编码图像特征模块及正则化技术等关键部分，并通过XVerseBench基准测试验证其效果。

2025年6月27日23时作者机器之心

，彩云科技CEO袁行远。
残差连接（residual connections）自何恺明在 2015

2025年6月25日23时作者量子位

微软发布的新语言模型Mu让Windows 11设置界面拥有了自己的AI助手，用户只需简单提问即可获得设置建议。Mu针对小规模部署进行了优化，在NPU上高效运行，性能堪比330M大小的Phi-3.5-mini。