监督微调
落地推理大模型“慢思考”的思考及DeepMath-103K推理数据集构造方案
近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案,以及RAG方向的发展与应用。
地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型
OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平,AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划,显著提升规划准确率并降低成本。
再看行业R1模型如何构建及减少推理大模型过度思考
今天是2025年3月23日,星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线,包括数据处理和训练方法,并总结了减少推理大模型过度思考的技术方案。
李开复力推DeepSeek!零一万物发布模型一体机,搭载华为GPU,自家产品也全线替换了
零一万物发布万智企业大模型一站式平台,支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务,助力企业从通用大模型转向实际应用场景。
嚯!大语言扩散模型来了,何必只预测下一个token 人大高瓴&蚂蚁
人大高瓴人工智能研究院与蚂蚁集团提出LLaDA模型,使用扩散模型替代自回归,挑战了大语言模型的固有限制,并在上下文学习、指令遵循和反转诗歌任务中超越GPT-4。