李飞飞、DeepSeek为何偏爱这个国产模型?

阿里云通义千问的Qwen模型在短短时间内取得了显著突破,仅用1000个样本在H100上监督微调26分钟就训练出与顶尖推理模型相当的新模型s1-32B。这一成果引起了AI社区的关注和赞誉,取代了Llama成为开源AI社区的重要标杆基座模型。

50美元复现DeepSeek R1,李飞飞团队为何也选了阿里Qwen

阿里云通过开源领先模型繁荣AI生态,推动技术创新与商业良性循环。通义千问系列模型屡获佳绩,吸引开发者和企业加入其云计算平台,实现’全尺寸、全模态、多场景’的开源布局。

李飞飞团队50美元训练出DeepSeek R1?

文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法,该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现,论文核心是基于开源Qwen2.5-32B模型,进行小数据集监督微调,并非直接复制了DeepSeek R1。

“李飞飞团队50美元复刻DeepSeek R1”之辨

斯坦福大学李飞飞团队联合华盛顿大学研究人员利用不到50美元的云计算费用训练出了名为s1的推理模型,其数学与编码能力表现接近OpenAI、DeepSeek等大模型。该模型已在GitHub上发布,并且通过精心挑选的数据集和蒸馏方法实现了低成本高效训练。