DeepSeek-R1
微软开源DeepSeek-R1魔改版:响应99%敏感提示,风险降50%
今天凌晨,微软开源了MAI-DS-R1魔改版,在保留原有推理性能的基础上进行大幅度增强,响应敏感话题提升2倍至99.3%,安全性降低50%。
智谱全面发力开源,推理模型很快,但快的不止模型
今天智谱发布基座模型、推理模型和沉思模型,并上线全球域名 Z.ai;正式启动IPO进程。GLM-4-32B-0414 模型性能领先,GLM-Z1-32B-0414 和 GLM-Z1-9B-0414 提供不同规模选择。智谱 MAS 开放平台支持企业与开发者使用 API 服务。同时,智谱正加速推进IPO进程。
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
智谱开源最快大模型
智谱发布新一代开源模型GLM-4-32B-0414系列,包含基座、推理、沉思模型权重,并遵循MIT License。推理模型GLM-Z1-Air/AirX-0414模型推理速度最高可达200 Tokens/秒,价格仅是DeepSeek-R1的1/30。
Skywork-OR1:释放强化学习的力量,打造强大的数学和代码推理Agent
Skywork-OR1发布,7B参数量模型在AIME数学竞赛中得分69.8,性能媲美671B DeepSeek-R1,开源模型、数据和代码助力研究。
字节跳动刚发布 Seed-Thinking-v1.5 的技术细节报告
字节跳动发布Seed-Thinking-v1.5技术细节报告,其性能接近Gemini-2.5-Pro和O3-mini-high水平。
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
字节最新研发的Seed-Thinking-v1.5模型在数学、代码推理任务中表现优异,参数规模较小。该模型通过创新的数据处理方法、强化学习算法及基础设施优化提升了性能,并与其他领先模型进行了对比分析。