机器之心
文生图进入R1时刻:港中文MMLab发布T2I-R1
姜东志博士提出了一种新型的文本生成图像模型T2I-R1,融合了语义层面和细粒度令牌层面的协同推理策略。该模型通过强化学习方法统一了这两个层次的推理解析过程,并使用集成视觉专家模型作为奖励机制来评估生成图片的质量,显著提高了图像生成的效果。
ICML 2025 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
清华大学团队提出傅里叶位置编码(FoPE),通过鲁棒性强的位置编码克服Transformer在处理长文本时的周期性延拓限制,显著提升模型的长文本泛化能力。
时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」
Mistral Medium 3 是一款新的性能层级的语言模型,介于轻量级和大规模模型之间。它在关键基准测试中优于 GPT-4o 和 Claude 3.7 Sonnet。目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用,且成本仅为开源模型的一小部分。
绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世
rning with Verifiable Rewards(RLVR)范式下涌现出一批
「Zero
ICML 2025 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性,该方法成功将推理时间减半,并保持了接近原模型的视觉质量。