AxBench:斯坦福NLP团队开发的Python库,用于评估大型语言模型(LLM)可解释性方法的实用性。亮点:
-
提供16K概念训练数据,助力模型精准理解; -
包含10+种可解释性方法,涵盖微调和提示基线; -
支持LLM-in-the-loop训练,生成数据成本低至0.01美元/概念



参考文献:
[1] https://github.com/stanfordnlp/axbench
[2] https://arxiv.org/abs/2501.17148
[3] https://nlp.stanford.edu/~wuzhengx/axbench/visualization_UMAP.html
(文:NLP工程化)