学术归档 - 第222页共283页

2025年Next Token Prediction范式会统一多模态吗？

2025年1月16日12时作者 PaperWeekly

本文将介绍最近和来自北大，北航，港大，国科大等学校的同学以及阿里，Microsoft，Humanif

2025年1月16日12时作者 PaperWeekly

TL;DR：
本研究提出了一种新的语法纠错系统评估指标，能够根据评估句子类型不同，动态调整子指标的权

2025年1月16日12时作者 PaperWeekly

MiniMax-01系列模型开源，支持400W token长文本处理。该系列通过线性注意力机制大幅降低计算成本和提高效率。MiniMax-Text-01在文本任务与多模态任务上表现优异，展示了强大的超长文本理解和处理能力。

2025年1月15日23时作者极市干货

本文提出了关于如何演进MoE模型的猜想，主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group（MoEG）。文章从代数和范畴论的角度分析了MoE模型的结构，并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。

2025年1月15日23时作者机器之心

机器之心报道
编辑：杜伟
正如论文一作所说，「新架构 Titans 既比 Transformer 和

2025年1月15日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨新智元
来源丨新智元
编辑丨极市平台
极市导读
大连理工大学的研

2025年1月15日16时作者机器之心

机器之心报道
编辑：Panda、张倩
「2025 年，我们可能会看到第一批 AI Agent 加入劳

2025年1月15日16时作者机器之心

机器之心报道
机器之心编辑部
自适应 LLM 反映了神经科学和计算生物学中一个公认的原理，即大脑根据

2025年1月15日16时作者机器之心

文章介绍了V2PE（Variable Vision Position Embedding），一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势，为视觉-语言模型的发展带来了新的机遇。

2025年1月15日16时作者机器之心

OpenAI 的 o1 模型在回答编码题时，开始使用中文思考。专家们提出了多种解释，包括训练数据的影响、语言选择的自然性以及模型自身的智能涌现等观点。