学术归档 - 第96页共283页

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

2025年5月7日11时作者机器之心

AI 企业竞相追逐的焦点。
但近年来，推理效率已成为模型部署和性能的关键限制因素。
基于此，英伟达

2025年5月7日11时作者机器之心

Mixture-of-Experts（MoE）架构尽管稀疏激活减少了计算量，但显存资源受限的端侧部署仍面临挑战。研究提出Mixture-of-Lookup-Experts（MoLE），通过将专家输入改为嵌入(token) token，利用查找表代替矩阵运算，有效降低推理开销，减少数千倍传输延迟。

2025年5月7日11时作者机器之心

Google DeepMind的Gemini 2.5 Pro更新提升了编程能力和多模态推理功能，可构建Web应用、游戏和模拟程序，并根据自然图像生成代码。

2025年5月6日23时作者极市干货

256 生成上实现了最佳 (SOTA) 性能，FID得分为1.35，同时在短短64个epoch内就达

2025年5月6日23时作者极市干货

器人视觉运动策略学习方法
Diffusion Policy，
通过将机器人策略表示为条件去噪扩散过程

2025年5月6日19时作者 GiantPandaCV

25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型

2025年5月6日16时作者 PaperWeekly

上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro，该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理，并在多个基准测试中超越了此前发布的大型模型。

2025年5月6日16时作者机器之心

近日，ICML 2025 新研究揭示大型语言模型中注意力机制的查询 (Q) 和键 (K) 表示存在极大值现象，而值 (V) 表示则没有这种模式。极大值对上下文理解至关重要，研究提出保护 Q 和 K 中的大值能有效维持模型的上下文理解能力。

2025年5月6日16时作者 PaperWeekly

慢思考）。但在日常的使用中，大量用户提问的问题更多是系统 1 问题（这些问题可以直觉快速回答），他们

2025年5月6日16时作者机器之心

成功能爆火，掀起了以吉卜力风为代表的广泛讨论，生成式 AI 的热潮再次席卷网络。
而在这股浪潮背后，