这是一个新的编码器-解码器(encoder-decoder)架构的大语言模型,他们一口气发布了32个衍生版本。T5Gemma 主要还是面向文本生成任务,包括:
-
摘要生成(summarization) -
机器翻译(translation) -
问答系统(QA) -
数学推理(如GSM8K测试) -
阅读理解(如DROP测试)
这个模型的神奇之处是,它本身基于Gemma 2框架,通过”模型适配”技术将预训练的仅解码器(没错,Gemma 2 是个 decoder-only 的模型)模型转换为编码器-解码器架构模型。并且支持”不平衡”配置,如9B编码器配2B解码器,可以在质量和效率之间灵活权衡。这个模型的优点是:在相同的推理计算量下,性能优于仅解码器模型。并且可以根据具体任务调整编码器和解码器的大小。


参考文献:
[1] 模型地址:https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86
[2] 技术报告:https://developers.googleblog.com/en/t5gemma/
知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21
进NLP工程化资料群,以及Dify交流群。
(文:NLP工程化)