Transformer模型
Transformer 架构重大改进:华人科学家刘壮联合何恺明,Yann LeCun整活
Meta AI华人团队联合大牛发布论文,证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数,相比传统方法,DyT简单有效,性能不输且速度快、成本低。
DeepSeek开源周首发,H800算力狂飙,网友:提升GPU效率可以,别毁了我的Nvidia股票!
DeepSeek开源周启动,FlashMLA项目因高效MLA解码内核受到关注。此项目优化了可变长度序列处理,并显著降低了GPU内存使用和计算成本。
Transformer教学项目:fun-transformer
Transformer教学项目:fun-transformer课程涵盖编码器和解码器实现,并在无深度学习框架环境下使用基础库实践,最后应用于机器翻译任务。
推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考
开源推理大模型新架构Huginn采用了不同于Deepseek-R1/OpenAI o1的方法,直接在高维潜空间中用隐藏状态进行推理。该模型在处理数学问题时能快速收敛到正确答案,并通过观察其推理轨迹发现了复杂的现象,如对关键数字形成圆形轨道等。
DeepSeek的用人观:学霸、年轻人、禁止赛马|智涌分析
DeepSeek通过吸引年轻应届毕业生和实习生,采用扁平化管理方式,不设立硬性KPI,追求技术创新。团队规模控制在150人左右,注重培养和发展年轻天才的研发能力。