一作解读!从idea视角,聊聊Qwen推出的新Scaling Law——Parallel Scaling

MLNLP社区介绍了一个名为ParScale的新方法来扩展大语言模型的计算量,该方法可以在保持参数不变的情况下显著提升推理效率,并且适用于各种场景。通过将输入变换形式和输出聚合规则变为可学习的并增大并行计算数量,该技术展示了在推理和预训练阶段的有效性。

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

金天和郑鈺熹是麻省理工学院的博士生,他们研究了大语言模型生成范式的转变。PASTA 论文介绍了通过策略学习实现异步生成的方法,包括标记语言 PASTA-LANG 和优化训练流程。实验结果表明这种方法能显著提高推理速度并保持输出质量。

何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%

大神何恺明发布新作《Mean Flows for One-step Generative Modeling》,提出一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度的概念,在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到3.43。