从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现 2025年2月14日23时 作者 PaperWeekly 理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1,效果追评甚
DeepSeek访问受限?一招助你无障碍体验“满血版” DeepSeek R1 2025年2月6日14时 作者 AI技术研习社 DeepSeek 爆火后访问受限,秘塔 AI 搜索整合 DeepSeek R1 解决问题。通过稳定访问、实时联网和一站式体验优势,用户无需自建环境即可使用强大的大模型助手。
人大高瓴人工智能学院师生论文被国际学术会议ICLR 2025录用 2025年1月28日22时 作者 机器学习算法与自然语言处理 MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企
8B模型超越GPT-4o!通义实验室提出多轮对齐SDPO,让LLM更擅长多轮交互 2025年1月26日23时 作者 PaperWeekly LLM 如何在多轮任务中对齐人类偏好?通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO,让
参加完NeurIPS,纽约大学教授感受到了AI博士生的焦虑与挫败 2024年12月23日16时 作者 机器之心 机器之心报道 编辑:Panda、蛋酱 2024 年 12 月 10-15 日,今年度的 NeurIP
微软发布:工业级Agent落地方案RDAgent 2024年11月29日12时 作者 PaperAgent RDAgent是用于自动化工业研发过程的工具,通过提出新想法(Research)和实现这些想法(Development),并在实践中不断学习优化。