谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4
谷歌发布Gemini 2.5 Deep Think模型,该模型可以在Gemini App中使用,并且推理速度更快、实用性更强。相比之前的版本,它仍能解决复杂的数学问题,但实力不及之前完全体的表现。
谷歌发布Gemini 2.5 Deep Think模型,该模型可以在Gemini App中使用,并且推理速度更快、实用性更强。相比之前的版本,它仍能解决复杂的数学问题,但实力不及之前完全体的表现。
华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。
Deep Cogito发布四款混合推理模型,包括4050亿参数稠密模型和6710亿MoE模型,展示迭代蒸馏与增强技术,训练成本不到350万美元。
OpenAI面临数据瓶颈和技术难题,GPT-4.5项目因性能未达预期而降级为GPT-4.5。GPT-5将提升编程与数学能力,并引入通用验证器技术,但仍是渐进式改进而非革命性飞跃。OpenAI内部存在人才流失、路线冲突和高层矛盾等问题。
谷歌发布Gemini 2.5 Deep Think模型,提供更快、更直观的数学问题解决能力。新版本比去年展示的速度更快,性能更高,可以用于IMO竞赛和研究。
OpenAI即将发布的开源大模型详情曝光。120亿参数混合专家模型在推理时仅激活约50-60亿参数,采用Float4量化技术并使用滑动窗口注意力和注意力汇聚技术处理超长上下文窗口。
通过Windows-MCP工具,AI助手可以直接与Windows操作系统互动,实现复杂的任务自动化。它支持鼠标、键盘操作和PowerShell命令执行,无需传统计算机视觉技术。
谷歌推出Gemini 2.5 Deep Think模型,能够解答国际数学奥林匹克6道题目中的5道,达到金牌水平。新版本速度更快、更易用,并在多个基准测试中表现出最佳性能。该模型仅最高级别的Google AI Ultra订阅者可用,每月订阅费为249.99美元。