DeepSeek-R1 解读及技术报告中文版

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化,并结合蒸馏技术实现高效迁移,显著提升了多项任务表现。

将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

大语言模型在推理任务中表现出色,但可能被恶意利用。来自北航等团队提出RACE框架,通过推理增强对话攻击模型的安全对齐机制。研究揭示了潜在威胁,并提出了防御策略。