英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
字节最新视频生成模型Seaweed-Video仅70亿参数,实现超越同类140亿参数效果。它能根据文本描述创建各种分辨率和时长的视频,并支持图像生成、控制功能增强等新特性。
复旦大学和腾讯优图实验室提出PixelPonder,一种新的多视觉控制框架。它解决了当前方法在组合多个异构控制信号时面临的挑战,显著提高图像生成的可控性和文本一致性。
OpenAI发布了GPT-4.1系列模型,相比前代GPT-4.5有显著提升。新版本包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,主打长上下文处理能力和性价比。
谷歌推出DolphinGemma模型,基于WDP合作的野生大西洋斑点海豚声学数据库训练而成,能够学习和生成类似海豚声音序列,助力跨物种交流。
CADCrafter团队提出了一种新的图生3D框架,能够直接生成可编辑的CAD工程文件。该方法从图像到CAD模型的转换精度高、表面质量好,并且通过编译器可以得到直接生产加工的3D文件。