ICLR 2025杰出论文揭晓:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态
ICLR 2025杰岀论文奖揭晓!3篇杰出论文涵盖安全对齐、语言模型学习动态和编辑等方面的研究成果,强调了当前大型语言模型存在的问题及潜在解决方案。
ICLR 2025杰岀论文奖揭晓!3篇杰出论文涵盖安全对齐、语言模型学习动态和编辑等方面的研究成果,强调了当前大型语言模型存在的问题及潜在解决方案。
普林斯顿大学和华沙理工的研究表明,将对比 RL 扩展到1000层可以显著提高自监督强化学习的性能,在各种机器人任务中可实现50倍以上的提升。
腾讯发布首个混合Transformer-Mamba MoE架构的超大模型Hunyuan-TurboS,其在数学、推理等关键benchmark上超越或持平GPT-4o-0806、DeepSeek-V3。模型成本降低7倍。