人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
阿里云千问团队发布了Qwen2.5-VL-32B-Instruct模型。该模型在多个方面实现了重要突破:优化了模型规模、提升了性能,并在视觉理解和数学推理等方面取得了显著进步。
谷歌最新发布的Gemini 2.5 Pro模型在推理和代码能力上表现优异,横扫多个基准测试排行榜榜首,并且实现了显著的性能提升。
答案的情况,比如以下例子:
根据视频中本车的动作,它接下来最有可能立即采取的行动是什么?
A:右转,
OpenAI发布了两款新的音频模型GPT-4o-transcribe和GPT-4o-mini-transcribe,旨在提升语音转文本的准确性,并引入可操控性文本转语音功能。此举为自然、直观的口语对话迈出了重要一步。
深入剖析R1-Zero训练方法,发现其已展现‘灵光一现’现象,并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。
新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。
今天是2025年3月23日,星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线,包括数据处理和训练方法,并总结了减少推理大模型过度思考的技术方案。