多模态后训练反常识:长思维链SFT和RL的协同困境
华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。
news
华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。
Deep Cogito发布四款混合推理模型,包括4050亿参数稠密模型和6710亿MoE模型,展示迭代蒸馏与增强技术,训练成本不到350万美元。
OpenAI面临数据瓶颈和技术难题,GPT-4.5项目因性能未达预期而降级为GPT-4.5。GPT-5将提升编程与数学能力,并引入通用验证器技术,但仍是渐进式改进而非革命性飞跃。OpenAI内部存在人才流失、路线冲突和高层矛盾等问题。
谷歌发布Gemini 2.5 Deep Think模型,提供更快、更直观的数学问题解决能力。新版本比去年展示的速度更快,性能更高,可以用于IMO竞赛和研究。
OpenAI即将发布的开源大模型详情曝光。120亿参数混合专家模型在推理时仅激活约50-60亿参数,采用Float4量化技术并使用滑动窗口注意力和注意力汇聚技术处理超长上下文窗口。
谷歌推出Gemini 2.5 Deep Think模型,能够解答国际数学奥林匹克6道题目中的5道,达到金牌水平。新版本速度更快、更易用,并在多个基准测试中表现出最佳性能。该模型仅最高级别的Google AI Ultra订阅者可用,每月订阅费为249.99美元。
专注AIGC领域的专业社区介绍,强调图像超分辨率技术及多智能体系统4K Agent的研究与应用。它能够处理各种类型的退化图像,并通过高度可配置的模块进行灵活适应和优化。