看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一

字节发布轻量级多模态推理模型Seed1.5-VL,在60个主流基准测试中拿下38项第一,仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”

港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1,通过双层级CoT推理框架和BiCoT-GRPO强化学习方法实现了高效的图像生成。该模型在多个基准测试中表现出色,并展示了其在理解与生成任务中的有效性。

AI大佬教你如何中顶会:写论文也要关注「叙事」

Google DeepMind的研究科学家Neel Nanda发布了一篇关于如何写好机器学习论文的指南,旨在帮助研究者将研究成果转化为高质量、科学诚信的论文。该指南强调了构建叙事的重要性,并提供了关键要素和写作流程建议。

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了

用AI无限扩展《我的世界》,用户通过鼠标键盘即可自由探索、创作高质量虚拟内容,支持8大Minecraft场景生成。Matrix-Game模型在视觉质量、控制能力等方面超越现有开源基线。