自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。
该工作由字节跳动 ByteBrain 团队 × 清华大学合作完成。提出了 ChatTS,一种原生支持多变量时序问答与推理的多模态 LLM,并入选数据库顶级会议 VLDB 2025。
法国 AI 初创公司 Mistral 发布了开源语言模型 Devstral,参数规模为 240 亿,支持在低配置设备上运行,并在软件工程任务中表现优异。
论文《Agentic Knowledgeable Self-awareness》提出了一种新方法,帮助大模型智能体更好地了解自己的知识边界,在复杂任务规划中更加灵活和高效。
金天和郑鈺熹是麻省理工学院的博士生,他们研究了大语言模型生成范式的转变。PASTA 论文介绍了通过策略学习实现异步生成的方法,包括标记语言 PASTA-LANG 和优化训练流程。实验结果表明这种方法能显著提高推理速度并保持输出质量。
大神何恺明发布新作《Mean Flows for One-step Generative Modeling》,提出一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度的概念,在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到3.43。