学术
多模态方向开源数据集资源汇总
MINT-1T 数据集是一个 1 万亿个文本标记和 34 亿张图像的开源数据集,扩展了现有开源数据集的 10 倍。WuDaoCorpora 是一个由北京智源人工智能研究院构建的大规模、高质量数据集。Conceptual Captions 提供超过 300 万张带有自然语言字幕的配对图像。SBU Captions 数据集中有 100 万带标题的照片描述图像。MiniGPT-4 使用高质量图文对进行微调,Ego-Exo4D 包含三种精心同步的语言视频数据集。
从DeepSeek V3开源趋势重新审视大模型Infra
文章介绍了DeepSeek V3作为高效大模型基础设施的设计,并详细解释了其在计算集群、训练框架优化、低精度训练及推理部署等方面的应用。同时推荐了相关的资源和课程。