模型蒸馏
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
工学院举办的信息学研讨会上发表了一场演讲,主题为「
AI 的重要趋势:我们是如何走到今天的,我们现在
落地推理大模型“慢思考”的思考及DeepMath-103K推理数据集构造方案
近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案,以及RAG方向的发展与应用。
热议:为什么 DeepSeek 出来后,国产其他大模型的集体失声了,以前都号称很强的?
MLNLP是国内外知名的人工智能社区,致力于推动自然语言处理与机器学习领域的交流与发展。2025年出现的DeepSeek模型通过技术革新颠覆了行业现状,展示了技术实力和成本优势。
李飞飞团队50美元训练出DeepSeek R1?
文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法,该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现,论文核心是基于开源Qwen2.5-32B模型,进行小数据集监督微调,并非直接复制了DeepSeek R1。