最新!Qwen 3 GPQA跑分接近DeepSeek R1:仅用三分之一参数
大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。
大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。
阿里-高德团队提出组策略梯度优化GPG方法,仅需优化原始目标,解决已有方法偏差,提高训练效率。在实验中,GPG性能全面超越现有方法,有望成为下一代基础模型训练的关键方法。
最近AI应用爆款频出,Manus的问世加速通用Agent在各行业的崛起。腾讯、阿里等企业争相挖掘能用AI驱动业务的大模型开发人才,年薪可达60-100W。知乎知学堂推出「大模型应用开发实战训练营」免费课程,涵盖大模型技术原理和应用场景,助力开发者掌握核心技术。