3 月 2025 - 第258页共274页

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等开源

2025年3月3日16时作者量子位

来自华为、港大、KAUST和马普所的研究者提出了一种新的稀疏注意力机制——SepLLM，它通过根据原生语义动态划分token数量来显著减少KV缓存使用量，并在免训练、预训练和后训练场景下实现了50%以上的KV缓存减少。

2025年3月3日16时作者 PaperWeekly

dge Distillation: Towards New Horizons of Intellig

2025年3月3日16时作者机器之心

OmniParser V2 是通过更大规模的交互元素检测数据和图标功能描述数据训练，实现更高效的 GUI 解析，并在 ScreenSpot Pro 基准测试中取得了 39.6 的 SOTA 准确率。

2025年3月3日16时作者新智元

册」，在512个GPU上进行超过4000个scaling实验。联创兼CEO Clement对此感到十

2025年3月3日16时作者机器之心

，今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightV

2025年3月3日14时作者 AI技术研习社

DeepSeek发布免费开源模型DeepSeek-R1，性能媲美OpenAI o1。通过Kaggle平台进行微调训练，使AI更懂特定任务需求。

2025年3月3日14时作者老刘说NLP

，发现一些有趣的问题，比如模型参数融合的玩法，会有更多收获。
围绕模型参数融合，MOE可视化图解，d

2025年3月3日14时作者 AI技术研习社

《北京大学》精彩讲座分享DeepSeek核心价值与应用技巧

2025年3月3日14时作者小兵的AI视界

HealthGPT是浙江大学、电子科技大学和阿里巴巴等联合开发的医学视觉语言模型，它通过异构低秩适应、分层问答和多模态融合技术，在医学图像分析、文本理解生成、教育研究及智能健康管理方面表现出色。