多模态后训练反常识:长思维链SFT和RL的协同困境

华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。

最新内幕!GPT-5没能取得技术突破,OpenAI核心投奔小扎另有隐情

OpenAI面临数据瓶颈和技术难题,GPT-4.5项目因性能未达预期而降级为GPT-4.5。GPT-5将提升编程与数学能力,并引入通用验证器技术,但仍是渐进式改进而非革命性飞跃。OpenAI内部存在人才流失、路线冲突和高层矛盾等问题。

谷歌推最强Gemini推理模型:月费1800,已拿奥赛金牌,性能超OpenAI o3和Grok 4

谷歌推出Gemini 2.5 Deep Think模型,能够解答国际数学奥林匹克6道题目中的5道,达到金牌水平。新版本速度更快、更易用,并在多个基准测试中表现出最佳性能。该模型仅最高级别的Google AI Ultra订阅者可用,每月订阅费为249.99美元。