再看增强大模型推理能力的四种范式及蒸馏微调范式具体实现
文章介绍了增强大模型推理能力的四种范式,并探讨了使用蒸馏微调方式进行数据集和工具的选择。强调了监督微调(SFT)加上强化学习(RL)的重要性,同时提到了不同蒸馏方法及其应用。
文章介绍了增强大模型推理能力的四种范式,并探讨了使用蒸馏微调方式进行数据集和工具的选择。强调了监督微调(SFT)加上强化学习(RL)的重要性,同时提到了不同蒸馏方法及其应用。
今天是2025年02月08日,星期六。老刘在NLP技术社区分享了关于Deepseek R1类推理大模型的习得过程、认知误区、场景机会及技术风险等内容,强调需从落地角度看问题,并提醒避免空谈和偏见。
老刘说NLP技术社区自建立以来围绕大模型、知识图谱、RAG和文档智能等主题发布每日早报、线上交流活动分享、专题报告等内容,欢迎加入。
今天是2025年02月07日,星期五。老刘说NLP技术社区第27讲线上交流围绕Deepseek R1类推理大模型的习得过程、认知误区展开讨论,分享场景机会及技术风险。
2025年02月06日,星期四,大年初九,北京天气晴。Deepseek-R1近期引发广泛关注,摘要回顾了其蒸馏、推理速度等话题,并探讨知识图谱进展及RAG中Deepthink的使用思考。
2025年02月03日,星期一。江西天气阴。文章介绍了Deep Research进展及后续演进、Jina AI的开源实现版Node-DeepResearch,以及基于大模型的故事自动分析并配音的应用尝试。