TokenDagger:高性能实现OpenAI的TikToken,为大规模文本处理加速

TokenDagger:高性能实现OpenAI的TikToken,为大规模文本处理加速。亮点:1. 代码样本分词速度比原版快4.02倍;2. 采用优化的PCRE2正引擎则,解析效率更高;3. 简化BPE算法,降低大词汇表性能损耗。

参考文献:
[1] http://github.com/M4THYOU/TokenDagger



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论