神经奖励模型归档 - 每时AI

R1-Computer-Use：将Deepseek R1的强化学习技术应用于计算机使用场景

2025年2月8日8时作者 NLP工程化

R1-Computer-Use利用Deepseek R1的强化学习技术优化计算机使用场景中的AI行为，支持文件操作、命令行交互等多种任务。