机器学习
大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
上海AI Lab提出LEMMA项目,通过构建‘错误-反思-修正’数据让大模型从错误中学习,Llama3-8B数学题准确率提升13.3%,有效提高模型的纠错和泛化能力。
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
DeepSeek新版R1-0528在编程能力测试中表现突出,能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码,并且对国内用户更为友好。