DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

最新研究揭示了大模型解决常见英语谜题的局限性,如DeepSeek R1常常放弃给出错误答案。研究人员创建了一个包含近600个问题的新基准测试,并发现在使用超过3000个令牌后继续推理对提升准确率帮助不大。

清华大学DeepSeek:从入门到精通(不跑路)

《DeepSeek:从入门到精通》详细介绍了DeepSeek的核心功能、应用场景及提示语设计原则,强调了推理模型与通用模型的区别,并提出了关键的技能体系和进阶技巧。

“李飞飞团队50美元复刻DeepSeek R1”之辨

斯坦福大学李飞飞团队联合华盛顿大学研究人员利用不到50美元的云计算费用训练出了名为s1的推理模型,其数学与编码能力表现接近OpenAI、DeepSeek等大模型。该模型已在GitHub上发布,并且通过精心挑选的数据集和蒸馏方法实现了低成本高效训练。

Deep Research:不只是一个工具,是新时代的开始(5+实践例子)

OpenAI的Deep Research展示了自主代理与推理模型结合的人工智能系统,能够超越人类专家进行深度研究。它已证明了专注于特定任务的专业AI代理的强大能力,并在多个领域产生了专业级的研究成果。