ScienceMeter:专注于语言模型中科学知识更新的评测工具

ScienceMeter:专注于语言模型中科学知识更新的评测工具,助力科研领域模型能力精确追踪与量化。

  • 覆盖10个科学领域,基于Semantic Scholar API收集1,000篇核心期刊及会议论文及引用文献,构建5,148组三元组(先前论文、新论文、未来论文)。
  • 数据集含每篇论文的支持(SUPPORT)与反驳(REFUTE)合成科学论断,便于细粒度知识判断与生成任务评测。
  • 提供多款评测脚本:支持模型知识判断(eval_judgment.py)、知识生成(eval_generation.py)及更新效果多指标度量(metrics.py)。
  • 内置知识更新基线训练示例,涵盖持续预训练、标准指令微调及预指令微调,支持多场景模型迭代验证。
  • 论文公开于arXiv,代码全开源,欢迎科研人员使用、反馈及贡献,助力语言模型科学知识动态演进研究。

参考文献:
[1] https://github.com/yikee/ScienceMeter
[2] https://arxiv.org/abs/2505.24302



知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21进NLP工程化资料群,以及Dify交流群。

(文:NLP工程化)

发表评论