Labubu换装记!让视频换装变得如此简单!基于扩散Transformer的视频虚拟试衣新突破
MagicTryOn项目利用Transformer模型实现高质量视频试衣效果,包括图像和视频试衣支持。该技术已在多个场景中展现出巨大潜力。
MagicTryOn项目利用Transformer模型实现高质量视频试衣效果,包括图像和视频试衣支持。该技术已在多个场景中展现出巨大潜力。
研究员Keller Jordan仅凭一篇关于神经网络隐藏层优化器Muon的博客文章加入OpenAI,并可能用其训练GPT-5。Muon在CIFAR-10和NanoGPT等任务中表现出色,且内存需求低、运行效率高。
VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。该模型在多个任务中的性能显著超越传统优化方法,并且推理速度达到秒级。
MLNLP社区介绍其愿景是促进国内外NLP与机器学习领域内的交流与进步,本文介绍了Deltaformer模型及其在GPU上的高效实现方法,并证明了其在追踪元素交换任务上的能力。
清华大学等机构联合推出OneTwoVLA模型,实现机器人既能思考又能执行任务,兼容长程规划、错误检测与恢复、自然人机交互及通用视觉定位能力。
由Transformer作者之一创立的SakanaAI公司近期推出Text-to-LoRA(T2L),简化了模型适配流程,一句话就能生成LoRA。该方法通过动态调制大模型实现高效参数压缩,同时在零样本场景下表现突出。
一本好的教材兼具体量恢弘与思想深邃,《深度学习:基础与概念》就是这样的一本经典入门书籍,作者Christopher M.Bishop长期深耕人工智能领域,并获得多位AI领域的重量级专家推荐。
本文介绍了一篇CVPR 2025 Highlight论文《CrossFlow》及其相关工作,该研究提出了一个新的跨模态生成框架,并在多个任务上取得了媲美甚至超越最优算法的性能。
CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征,并通过对比生成同步训练提升模型理解能力,实现‘听清+看懂’多模态理解。