学术归档 - 第196页共283页

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

2025年2月12日23时作者机器之心

50B 的性能。
这是一种全新的语言模型架构，能够通过使用循环语言模型在潜在空间中隐式推理，显著提升

2025年2月12日23时作者 PaperWeekly

的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域

2025年2月12日23时作者极市干货

径比较清晰，意在初步梳理DeepSeek技术的演进及进化之路，主要包括三大方向：大语言模型、视觉语言

2025年2月12日23时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年2月12日23时作者机器之心

型，DeepSeek 竟能让倒卖商如此大赚特赚，也着实让人震惊。而这也从侧面佐证了 DeepSeek

2025年2月12日23时作者 PaperWeekly

文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度提升2-6倍，成本降低83%。

MLNLP社区是国内外知名的机器学习与自然语言处理社区，CCL 2025将于8月在山东济南举行，聚焦计算语言学最新学术和技术成果。会议征集原创研究和应用论文，接收中文和英文投稿，并提供多种期刊发表机会。

2025年2月12日8时作者机器之心

苹果与阿里巴巴合作为中国 iPhone 用户开发 AI 功能，有望提升本土化服务。

2025年2月11日23时作者极市干货

台
极市导读
深入探讨DeepSeek的技术突破及其对AI行业的影响。
>>
加入极市CV技术交流群

2025年2月11日23时作者极市干货

ETok在仅使用128个token的情况下，于256×256和512×512分辨率的ImageNet