大语言模型
QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法
本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。
低Token高精度!字节复旦推出自适应推理框架CAR
复旦大学余海洋与字节的研究人员提出CAR自适应推理框架,根据模型困惑度动态选择短回答或长文本推理,在多模态视觉问答和关键信息提取任务中实现最佳平衡。
统计可控数据合成!新框架突破大模型数据生成局限,麦吉尔大学团队推出LLMSynthor
麦吉尔大学团队提出LLMSynthor方法,通过让大语言模型成为结构感知的生成器来解决数据合成中的不足问题。其核心在于统计对齐和迭代优化,能够生成结构合理、语义一致的数据,并在多个场景中验证了其有效性与稳定性。