纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归
基于Transformer的自回归视觉生成模型在图像生成领域的表现受到了质疑。然而,复旦大学和字节Seed的研究者们提出了一种新方法SimpleAR,在0.5B参数规模下实现了高质量图像的生成,并通过优化训练过程提升了模型的效果。
基于Transformer的自回归视觉生成模型在图像生成领域的表现受到了质疑。然而,复旦大学和字节Seed的研究者们提出了一种新方法SimpleAR,在0.5B参数规模下实现了高质量图像的生成,并通过优化训练过程提升了模型的效果。
微软研究院开源了实时交互世界模型MineWorld,以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis,在多方面表现更优,包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成,实现高效并行解码算法提高生成效率。
Sebastian Raschka 的《从零构建大模型》是一本帮助读者理解并实战大模型开发的书。通过直接、清晰的教学方式,本书涵盖了从数据准备到模型部署的全流程,适合Python基础和普通笔记本硬件条件的开发者。
U-Net 架构对齐到 ViT(Vision Transformer)特征空间
的新方法
U-REP
Meta 最新开源模型 Llama 4 Scout 达到千万级上下文,拥有 1090 亿参数。其使用 NoPE 架构解决长度泛化问题,并通过优化训练流程和强化学习框架提升性能。
梳理了大模型体系构成和应用关系,介绍了神经网络作为机器学习的一种深度学习方式的基本原理及其在自然语言处理、计算机视觉等领域的结合应用,并阐述了不同架构如Transformer、RNN的工作机制,强调了神经网络并非万能及需要具体任务场景来发挥作用。
今天没有发布会,只是看到了一组数据:中国智能汽车销量Top5里有三款搭载了大模型。文章讨论了AI落地的变化,从被动服务到主动执行,以及AI在各种应用场景中的实际运行状态。强调模型需要稳定可靠地“上班”,而非只关注其功能和性能指标。