元强化学习归档 - 每时AI

SIGIR 2025 解决扩展和迁移难题，华为新加坡提出InstructRAG，提升高达19%

2025年5月23日16时作者机器之心

大语言模型通过InstructRAG方案结合指令图、强化学习和元学习实现任务规划的可扩展性和迁移性，提升19.2%性能，在多个数据集上表现优于现有方法。

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

2025年3月13日12时作者机器之心

高推理能力的潜力，比如 OpenAI 的 o1 系列。
通常来说，这些方法在训练模型时可以产生比典型

如何优化测试时计算？解决「元强化学习」问题

2025年2月10日16时作者机器之心

化大模型的
测试时计算
是提升模型部署效率和节省计算资源的关键一环。前段时间，黄仁勋在 CES 20