上交CVPR 满分论文数据蒸馏技术,直接把 GPU 显存 “砍掉” 300 倍
一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。
一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。
OpenAI 最新发布的人工智能模型 GPT-4.5 因高昂成本和未能显著提升性能而受到质疑。其竞争对手DeepSeek等正在蚕食市场份额,导致盈利困难。此外,OpenAI面临人才流失、财务压力及领导力受质疑等问题。尽管首席研究Mark Chen表示GPT-5将取得重大突破,但现状仍需关注。
刚刚 DeepSeek开源周最后一个开源日推出数据处理神器:3FS和Smallpond。3FS是一款高性能分布式文件系统,提供卓越的读取吞吐量。Smallpond是基于DuckDB和3FS的数据处理框架,旨在简化PB级数据处理流程并充分利用DuckDB高性能分析能力。
阿里巴巴通义实验室开源最新视频生成模型Wan2.1系列,亮点包括复杂运动、物理模拟、电影质感等。Wan2.1-I2V-14B为图像到视频领域天花板;Wan2.1-T2V-14B支持中英文文字生成,性能卓越;Wan2.1-T2V-1.3B适合消费级显卡。模型采用3D因果VAE、特征缓存机制等技术。
DeepSeek 开源周第四天推出三剑客,包括DualPipe、EPLB和profile-data项目。DualPipe优化计算与通信重叠;EPLB实现专家并行负载均衡;profile-data提供模型训练和推理的性能分析数据。
DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。
DeepSeek OpenSourceWeek 发布了首个面向MoE模型的开源EP通信库 DeepEP。它提供了高性能All-to-All通信内核、集群内和集群间全面支持,以及训练和推理预填充及推理解码低延迟内核等特性。性能测试显示其在不同场景下都能提供出色的通信性能。
亚马逊云服务AWS即将发布Anthropic的Claude 3.7 Sonnet模型,这款升级版模型具备扩展思考能力,用户可自由切换标准思考与高级推理模式。Claude 3.7 Sonnet在代码生成、复杂推理等领域表现出色,适用于AI代理和复杂的AI工作流程。
Anthropic发布Claude 3.7 Sonnet和Claude Code,后者专注于代码能力。Sonnet具备混合推理功能,支持快速响应和深入思考,并提供精细的控制权来调整模型思考时间和输出长度。Claude Code作为智能体编码命令行工具,能显著提升编程效率。此外,Anthropic还展示了Claude 3.7 Sonnet在多个基准测试中的卓越表现,确认其为当前最强大的AI模型之一。