阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
阿里通义团队提出的新范式PARSCALE通过扩展CFG的双路径到P条并行路径,显著提升了1.6B模型的性能,仅占用后者的1/22内存,并将延迟增加量减少至1/6。该方法无需从头训练现有模型(如Qwen-2.5),并在GSM8K数学推理任务中实现了34%的性能提升。
阿里通义团队提出的新范式PARSCALE通过扩展CFG的双路径到P条并行路径,显著提升了1.6B模型的性能,仅占用后者的1/22内存,并将延迟增加量减少至1/6。该方法无需从头训练现有模型(如Qwen-2.5),并在GSM8K数学推理任务中实现了34%的性能提升。
算缩放定律(Parallel Scaling Law,简称 ParScale),即在训练和推理期间增
MLNLP社区介绍了一个名为ParScale的新方法来扩展大语言模型的计算量,该方法可以在保持参数不变的情况下显著提升推理效率,并且适用于各种场景。通过将输入变换形式和输出聚合规则变为可学习的并增大并行计算数量,该技术展示了在推理和预训练阶段的有效性。