清华大学DeepSeek:从入门到精通(不跑路)
《DeepSeek:从入门到精通》详细介绍了DeepSeek的核心功能、应用场景及提示语设计原则,强调了推理模型与通用模型的区别,并提出了关键的技能体系和进阶技巧。
《DeepSeek:从入门到精通》详细介绍了DeepSeek的核心功能、应用场景及提示语设计原则,强调了推理模型与通用模型的区别,并提出了关键的技能体系和进阶技巧。
LIMO提出了一种新的假设:基础模型中已全面编码领域知识,在预训练阶段通过最少但精心策划的认知过程可以激发复杂的推理能力。使用817个高质量问题和相应的推理链进行监督式微调的Qwen2.5-32B-Instruct模型在数学基准测试中的表现显著优于先前的工作。
一种新的语言建模方法Test-time Scaling通过测试时增加额外计算来提升性能,作者李飞飞等新作S1提出了一种简单而有效的测试时扩展方法,并展示了其实用性。
DeepRAG结合检索增强推理和模仿学习解决了复杂查询的挑战,通过马尔可夫决策过程动态决定是否检索外部知识或内部参数推理。
本文介绍了多个OpenAI Deep Research的复现项目,并重点介绍Hugging Face的open-Deep-Research项目,它在GAIA基准测试中的准确率达到了54%。强调了使用代码表达操作的优势以及未来改进的方向,如扩展文件格式数量、提出更细粒度的文件处理等。
HF热门排行榜上出现了一款24B新模型Mistral Small 3,由Mistral AI开源,主打轻量化、低延迟和以Agent为中心特性。它在性能上与大型模型竞争,并作为封闭专有模型的优秀开源替代品。
OpenAI在ChatGPT中推出Deep Research功能,能够为复杂任务进行多步骤研究。其准确率高达26.6%,显著高于谷歌的9.4%。该功能由优化版O3模型支持,并利用Python工具绘制和迭代图表。
DeepSeek R1-Zero无需人类标注即可实现准确推理,通过强化学习自主发展自我验证和搜索能力。TinyZero展示了其在CountDown游戏中的复现成果,成本不到30美元。
MarS是一款由LMM驱动的金融市场模拟引擎,旨在生成现实、互动且可控的订单,并评估其在市场的规模法则和真实性。它概述了核心组件和潜在应用,展示通过噪声Agent运行市场模拟的能力及其结果可视化。
OpenAI发布的新模型o3-mini在安全性方面表现较好,相比之下DeepSeek R1存在较大问题。实验结果显示o3-mini仅1.19%的回答被认为是不安全的,而DeepSeek-R1则有11.98%的回答被归类为不安全。