困惑度归档 - 每时AI

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

2025年7月14日8时作者极市干货

et的新型分层网络，它通过动态分块机制取代了传统的Tokenization过程，实现了真正端到端的语

2025年6月14日16时作者新智元

康奈尔、CMU等机构的研究者，提出了前所未有的「混合体」——Eso-LM。有人惊呼：「自回归危险了。

2025年5月27日16时作者量子位

复旦大学余海洋与字节的研究人员提出CAR自适应推理框架，根据模型困惑度动态选择短回答或长文本推理，在多模态视觉问答和关键信息提取任务中实现最佳平衡。

2025年4月7日23时作者极市干货

大、北大提出
In Context Editing
，这是一种突破传统微调，从自诱导分布中学习知识的

2024年12月25日22时作者 Hugging Face

这是
自动评估基准
系列文章的第二篇，敬请关注系列文章:
基础概念
设计你的自动评估任务
一些评估测

2024年12月5日11时作者新智元

BitNet系列原班人马推出新一代架构BitNet a4.8，采用两阶段权重衰减和学习率调度。实验对比显示其在语言模型困惑度和任务准确性方面与LLaMA相当，并且平均精度几乎没有损失。