文生图进入R1时刻:港中文MMLab发布T2I-R1

姜东志博士提出了一种新型的文本生成图像模型T2I-R1,融合了语义层面和细粒度令牌层面的协同推理策略。该模型通过强化学习方法统一了这两个层次的推理解析过程,并使用集成视觉专家模型作为奖励机制来评估生成图片的质量,显著提高了图像生成的效果。

时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」

Mistral Medium 3 是一款新的性能层级的语言模型,介于轻量级和大规模模型之间。它在关键基准测试中优于 GPT-4o 和 Claude 3.7 Sonnet。目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用,且成本仅为开源模型的一小部分。

ICML 2025 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性,该方法成功将推理时间减半,并保持了接近原模型的视觉质量。