英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
字节最新视频生成模型Seaweed-Video仅70亿参数,实现超越同类140亿参数效果。它能根据文本描述创建各种分辨率和时长的视频,并支持图像生成、控制功能增强等新特性。
OpenAI发布了新的编码模型GPT-4.1,宣称其在代码生成和指令遵循方面表现卓越。该模型拥有100万token上下文窗口,并且能够处理约75万单词的内容长度。
复旦大学和腾讯优图实验室提出PixelPonder,一种新的多视觉控制框架。它解决了当前方法在组合多个异构控制信号时面临的挑战,显著提高图像生成的可控性和文本一致性。
智谱宣布其核心技术链路完全开源,包括基座模型、推理模型和沉思模型等。新发布的GLM-4-32B-0414与GLM-Z1-32B-0414均以32亿参数量媲美更大规模的主流模型,并在工具调用、联网搜索、代码智能体任务等方面表现优异。同时,小尺寸的9B系列模型也开源了。智谱持续推动AI生态建设,为企业提供模型即服务(MaaS)解决方案。