刚刚,Grok 4发布,「人类最后的考试」中拿下50.7%,碾压所有对手,游戏结束?
Grok 4现已对X Premium+订阅者开放,性能超越了包括OpenAI o3、Google Gemini等在内的多个领先模型,在关键测试中得分高达73分,并在人类最后的考试上取得50.7%的成绩。
Grok 4现已对X Premium+订阅者开放,性能超越了包括OpenAI o3、Google Gemini等在内的多个领先模型,在关键测试中得分高达73分,并在人类最后的考试上取得50.7%的成绩。
DeepSeek R1-0528版本超越xAI、Meta等成为全球第二大人工智能实验室,并与谷歌并列。其智能指数得分从60分跃升至68分,超过多个顶级模型,提升主要体现在数学竞赛、代码生成和推理方面。
文章介绍了藏师傅使用AI听书功能体验后对MiniMax Speech模型Speech-02的评价,强调其在ELO评价榜单上的表现优异,并详细描述了该模型的主要创新点和技术优势。
大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。