告别英伟达?华为昇腾NPU跑出准万亿参数大模型,媲美DeepSeek R1
华为盘古团队在昇腾 NPU 上高效训练了7180亿参数的 Pangu Ultra MoE 混合专家模型,并提出多项优化方案,提升计算资源利用效率,实现30.0%的模型算力利用率。
华为盘古团队在昇腾 NPU 上高效训练了7180亿参数的 Pangu Ultra MoE 混合专家模型,并提出多项优化方案,提升计算资源利用效率,实现30.0%的模型算力利用率。
就在前不久,GPT-4o突然出现过度谄媚的问题。用户反馈其回复内容充满无脑赞美,甚至只是简单打招呼也能得到夸赞。OpenAI随即回滚了版本并承认这一问题影响用户体验和信任。
小米发布首个为推理而生的大模型MiMo,仅7B参数规模超越OpenAI和阿里Qwen。技术团队强调预训练与后训练协同优化的重要性,通过特定数据合成及创新算法提升推理能力。
阶跃星辰开源图像编辑模型Step1X-Edit,支持文字替换、风格迁移等多种指令,实现多语言能力,性能超越GPT-4o等闭源模型。
OpenAI发布新模型GPT-image-1,支持生成和编辑图像。与GPT-4o相关功能新增指定质量、大小、格式等功能,支持透明背景等自定义输出。价格方面,文本输入5美元100万token;图像输入10美元100万token;图像输出40美元100万token。
字节跳动新推出Agent产品“扣子空间”,支持无线裂变邀请码获取。用户可通过探索和规划模式生成网页、网页版吉他、天气预报网站等任务,并添加MCP扩展插件。目前处于内测阶段,存在一些小问题,但任务拆解与多模态输出超越多数竞品。
近日,字节跳动发布豆包1.5深度思考模型,该模型在推理能力、速度和多模态方面实现了突破性升级。其参数量为200B,激活参数仅为20B,具有低延迟(<20ms)的优势。通过多项权威基准测试,该模型在数学推理和编程竞赛方面表现出色,并展示了其对图片的视觉推理能力。