Transformer
刚刚,何恺明官宣入职谷歌DeepMind!
AI大神何恺明正式入职谷歌DeepMind担任杰出科学家,保留MIT终身副教授身份。从微软亚洲研究院到Meta再到如今的谷歌,这位’学界+业界’跨界专家将助力实现AGI目标。
最新125种多模态大模型技术全面综述
两篇论文综述了从2021年至2025年开发的至少125个多模态大型语言模型,涵盖文本到图像、音乐、视频、人类动作和3D对象等多种生成任务。文章强调自监督学习、专家混合等关键技术,并提出了MLLMs融合策略和技术分析框架。
Labubu换装记!让视频换装变得如此简单!基于扩散Transformer的视频虚拟试衣新突破
MagicTryOn项目利用Transformer模型实现高质量视频试衣效果,包括图像和视频试衣支持。该技术已在多个场景中展现出巨大潜力。
GPT-5训练背后隐藏大佬:靠一篇博客入职OpenAI
研究员Keller Jordan仅凭一篇关于神经网络隐藏层优化器Muon的博客文章加入OpenAI,并可能用其训练GPT-5。Muon在CIFAR-10和NanoGPT等任务中表现出色,且内存需求低、运行效率高。
CVPR 2025 最佳论文|Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式
VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。该模型在多个任务中的性能显著超越传统优化方法,并且推理速度达到秒级。
字节Seed新作DeltaFormer:下一代模型架构的尝试
MLNLP社区介绍其愿景是促进国内外NLP与机器学习领域内的交流与进步,本文介绍了Deltaformer模型及其在GPU上的高效实现方法,并证明了其在追踪元素交换任务上的能力。
机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
清华大学等机构联合推出OneTwoVLA模型,实现机器人既能思考又能执行任务,兼容长程规划、错误检测与恢复、自然人机交互及通用视觉定位能力。
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
由Transformer作者之一创立的SakanaAI公司近期推出Text-to-LoRA(T2L),简化了模型适配流程,一句话就能生成LoRA。该方法通过动态调制大模型实现高效参数压缩,同时在零样本场景下表现突出。