性能提升
Unsloth 发布了 Dynamic v2.0 量化
Unsloth发布Dynamic v2.0量化版本,在MMLU和KL Divergence上表现更好,并修复了Llama.cpp中的问题,同时推出了新量化版本DeepSeek-R1/DeepSeek-V3-0324。
UI-R1仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测
本文介绍了一种基于规则的强化学习(RL/RFT)在GUI智能体领域的应用,UI-R1模型通过精心设计的奖励函数和高效的数据筛选策略提升了跨领域的任务表现。
ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen
果:由蚂蚁数科与清华大学联合团队提出的全新的具身协同框架 BodyGen 成功入选 Spotligh