多模态后训练反常识:长思维链SFT和RL的协同困境

华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。

最新内幕!GPT-5没能取得技术突破,OpenAI核心投奔小扎另有隐情

OpenAI面临数据瓶颈和技术难题,GPT-4.5项目因性能未达预期而降级为GPT-4.5。GPT-5将提升编程与数学能力,并引入通用验证器技术,但仍是渐进式改进而非革命性飞跃。OpenAI内部存在人才流失、路线冲突和高层矛盾等问题。