清华《DeepSeek:从入门到精通》干货分享!104页!
《DeepSeek:从入门到精通》是清华大学出版的一本深度学习和人工智能权威指南,涵盖基础概念至高级应用。本书通过实例和案例分析帮助读者掌握DeepSeek技术的模型训练与优化方法,适合各层次的学习者和研究者。
《DeepSeek:从入门到精通》是清华大学出版的一本深度学习和人工智能权威指南,涵盖基础概念至高级应用。本书通过实例和案例分析帮助读者掌握DeepSeek技术的模型训练与优化方法,适合各层次的学习者和研究者。
清华大学开源框架KTransformers研究显示,仅需14GB GPU和382GB DRAM即可本地运行671B参数的DeepSeek-R1模型,并实现约13.69 tokens/s的推理速度。
微信灰度接入DeepSeek R1,支持更全面的回答。DeeSeek-R1采用Agentic RAG方式接入,可以设计通用AI Agentic框架,并结合官方Prompt和搜索接入实现。
微软发布PIKE-RAG,旨在提高RAG系统在复杂企业场景下的知识提取、推理和应用能力。该方法聚焦于连贯的推理逻辑构建,并提出针对不同任务的不同技术策略。
X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
牛津大学提出Agentic Reasoning框架通过整合外部代理增强LLM推理能力,在复杂研究任务中超越现有模型,显著提高准确性和生产力。