从文件到块: 提高 Hugging Face 存储效率

Hugging Face 使用基于 Git LFS 的存储方案在 GitHub Hub 上存储模型、数据集和 Spaces。Xet 团队提出了一个创新的解决方案——基于内容的分块 (CDC),通过只传输变化的数据块来提升存储效率和迭代速度,目前该技术已应用于多个仓库,并实现了数据去重。

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

文本丰富的图像理解(TIU)涉及感知和理解两个核心能力。MLLMs通过模态对齐、指令对齐和偏好对齐等方法进行训练,并使用多样化的数据集和基准测试评估性能。

DeepSeek开源连击、Claude编码升级、GPT性能迷局,系统解读大模型诸神之战 | 万有引力

大模型竞争白热化,DeepSeek开源多项工具;阿里发布QwQ-Max-Preview;腾讯混元发布新一代Turbo S;OpenAI推出GPT-4.5。各模型展示技术优势和挑战,开发者需在有限资源下利用开源工具。