Transformer 架构重大改进:华人科学家刘壮联合何恺明,Yann LeCun整活

Meta AI华人团队联合大牛发布论文,证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数,相比传统方法,DyT简单有效,性能不输且速度快、成本低。

推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

开源推理大模型新架构Huginn采用了不同于Deepseek-R1/OpenAI o1的方法,直接在高维潜空间中用隐藏状态进行推理。该模型在处理数学问题时能快速收敛到正确答案,并通过观察其推理轨迹发现了复杂的现象,如对关键数字形成圆形轨道等。