啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?
微软研究院团队提出Transformer递归式自我提升方法,可在不修改基础架构的情况下解决长度泛化问题。通过多数投票和长度过滤,在10位数以内的乘法上实现近乎完美表现。
news
微软研究院团队提出Transformer递归式自我提升方法,可在不修改基础架构的情况下解决长度泛化问题。通过多数投票和长度过滤,在10位数以内的乘法上实现近乎完美表现。
苹果研究人员提出蒸馏扩展定律,基于计算预算及其在学生和教师之间的分配,能够预测蒸馏模型的性能。该发现降低了大规模使用蒸馏的风险,并指导了优化教师和学生模型的计算资源以最大化学生模型性能的方法。
专注AIGC领域的专业社区介绍,关注微软&OpenAI等大语言模型的发展与应用落地,强调透明度、可定制性和用户保护。最新版《模型规范》发布,强化知识自由,优化评估方法,支持公众参与和开放合作。