OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!
OpenAI联合创始人Andrej Karpathy分享了中国开源大模型DeepSeek-v3,仅使用280万小时GPU算力即超越Llama-3。该模型在多种基准测试中表现优异,并采用MLA和MoE等高效策略节省大量计算资源。
OpenAI联合创始人Andrej Karpathy分享了中国开源大模型DeepSeek-v3,仅使用280万小时GPU算力即超越Llama-3。该模型在多种基准测试中表现优异,并采用MLA和MoE等高效策略节省大量计算资源。
本周最受关注的进展包括DeepSeek发布6710亿参数模型DeepSeek-V3、智谱开源GLM-PC基座模型CogAgent-9B、阶跃星辰推出增强型AI图像模型Step-1X-Medium、阿里通义千问开源视觉推理模型QVQ-72B-Preview、马斯克xAI完成60亿美元C轮融资以及Cursor融资1亿美元。这些进展涵盖了AI领域的算法优化、模型性能提升及投资动态,体现了技术进步和行业发展的前沿方向。
年底沉寂的AI 行业,突然被一家中国公司刷屏。DeepSeek-v3 发布后,性能比肩GPT-4、Claude 3.5等开源模型。作为华裔,Alexandr Wang 称其为“全球最佳开源LLM”,并称赞其高效生成方式和成本优势。
本文介绍了5款AI模型和技术产品:CogAgent改进视觉语言模型的GUI代理;DeepSeek-V3参数量大的混合专家语言模型;Valley 2.0字节跳动开发的多模态大模型;devb.io简化生成开发者个人简历的过程;Memory Layers提供大规模分布式训练的参考实现。
2024年12月26日,DeepSeek AI发布其最新大型语言模型DeepSeek-V3,每秒处理60个token,采用FP8训练、MoE架构、无辅助损失负载均衡策略和多令牌预测目标等技术。该模型仅花费不到600万美金完成训练,并且支持高效推理与本地部署。