0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment
X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。
X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。
大语言模型(LLMs)的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究,提出四阶段认知框架和详细分类,并梳理实验方法与评估基准,为LLM可解释性研究提供了系统性的理论支持与实践指导。
文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度提升2-6倍,成本降低83%。
哈工大深圳、鹏城实验室和昆士兰大学合作提出了一种极性感知线性自注意力机制(Polarity-aware Linear Attention),解决了现有方法在保证注意力分数正值性时会忽视掉 Q,K 矩阵中的负值元素的问题,并在多个视觉任务上取得了精度与效率的平衡。
ICML投稿创纪录,咕泡科技提供一站式论文辅导服务。随着学术竞争加剧,高质量论文成为保研、申博和就业的重要凭证。咕泡科技汇聚顶尖导师资源,覆盖AI全方向和交叉学科,从选题到发表全程指导,助力学员克服挑战,提升论文质量与发表成功率。