
图 1 大模型的困惑度 (PPL) 和长文本困惑度 (LongPPL) 与长文本任务集 LongBench 分数的相关性。
-
论文题目: What is Wrong with Perplexity for Long-context Language Modeling?
-
论文地址: https://arxiv.org/abs/2410.23771
-
代码地址: https://github.com/PKU-ML/LongPPL
图 2(a)LongEval 任务示意图 (b)(c) LongEval 的答案 / 非答案部分的困惑度与任务表现的相关性。
图 3 LongEval 标准回答中不同类型的 token 按 LSD 分类的分布。
图 4 GovReport 数据集中 token 按 LSD 分类的分布。

表 2 使用不同的损失函数在长文本数据上微调的大模型的长文本性能。(文:机器之心)