大模型评估排障指南 | 关于可复现性 下午2时 2025/05/13 作者 Hugging Face 关于复现模型结果的挑战,文章探讨了代码库不一致、实现细节不同(如随机种子和评估指标)、归一化方式差异、prompt格式变化等因素导致的结果差异。