NLP工程化
教育场景里的OCR工具,专门处理教育材料:Versatile-OCR-Program
Versatile-OCR-Program是一款教育场景专用的OCR工具,能够提取试卷等复杂材料中的多模态信息,并支持多种语言和输出格式。
一个简单高效的 LLM 强化学习库:nanoAhaMoment
GitHub 上发布 nanoAhaMoment 库,仅需单个 80G GPU 即可实现高效 LLM 强化学习训练,支持微调基础模型并附有教程。
VecSetX:基于VecSet框架的先进向量集合表示方法
VecSetX:一种先进的向量集合表示方法,采用多层注意力机制提升性能,引入SDF回归替代传统分类,并使用Flash Attention加速训练。