强化学习
图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI
计算机最高奖图灵奖揭晓。强化学习先驱Andrew Barto与Richard Sutton共同获奖,他们被评价为’引领基础AI技术开发的研究人员’。两位是师徒关系,Barto和他的博士研究生Sutton将马尔可夫决策过程的数学基础应用于强化学习框架中。
刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto
强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。他们提出的强化学习理论为 AI 研究奠定了基础,并在机器人技能学习、网络拥堵控制等领域取得了成功。
社区供稿 | Hugging Face 又出新教程啦!手把手教你构建 DeepSeek-R1 推理模型
间进行了学习,下面是整理的课程内容
课程链接:
https://hf.co/learn/nlp-co
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
视觉强化微调项目 Visual-RFT 通过规则奖励和强化学习方法,实现了视觉语言模型在目标检测、分类等任务中的高效提升。项目已开源,欢迎加入。
DeepSeek:挑战OpenAI的新AI神!手把手教你微调 DeepSeek-R1!
DeepSeek发布免费开源模型DeepSeek-R1,性能媲美OpenAI o1。通过Kaggle平台进行微调训练,使AI更懂特定任务需求。
DeepSeek-R1 解读及技术报告中文版
MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化,并结合蒸馏技术实现高效迁移,显著提升了多项任务表现。