学术研究归档 - 第3页共3页

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

2025年2月14日23时作者 PaperWeekly

理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1，效果追评甚

2025年2月6日14时作者 AI技术研习社

DeepSeek 爆火后访问受限，秘塔 AI 搜索整合 DeepSeek R1 解决问题。通过稳定访问、实时联网和一站式体验优势，用户无需自建环境即可使用强大的大模型助手。

MLNLP
社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企

2025年1月26日23时作者 PaperWeekly

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让

2024年12月23日16时作者机器之心

机器之心报道
编辑：Panda、蛋酱
2024 年 12 月 10-15 日，今年度的 NeurIP

2024年11月29日12时作者 PaperAgent

RDAgent是用于自动化工业研发过程的工具，通过提出新想法（Research）和实现这些想法（Development），并在实践中不断学习优化。