Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布

中国研究员联合DeepMind团队提出的新研究《Lavender: Diffusion Instruction Tuning》,通过“注意力对齐”让Stable Diffusion教Llama-3.2等模型“看图说话”,性能提升30%,且代码、模型、训练数据将全部开源。

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。

上手智谱GLM-PC :帮你抢春运票、发微信,还不用付200美元,有它还要啥OpenAI的Operator

文章介绍了智谱研发的智能体AutoGLM和GLM-PC,它们能够通过简单的文字/语音指令模拟人类操作手机、电脑等设备,并展示在不同场景下的应用效果。GLM-PC支持移动端和PC端联动,可远程控制电脑完成多任务处理,甚至参与抢票和购买年货等活动。