跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

极市干货

多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型

2025年5月12日23时 作者 极市干货

系统梳理了统一多模态理解和生成模型的最新进展,将其分为基于扩散、自回归及混合三大架构范式,并探讨了该

分类 学术 标签 大视觉模型、 扩散模型系列、 挑战、 研究进展、 统一多模态模型、 详细解读 发表评论

DefMamba来袭:多尺度Backbone与可变形Mamba模块助力视觉任务新高度!

2025年5月9日23时 作者 极市干货

本文介绍一个种新型视觉基础模型
DefMamba,
通过多尺度 Backbone 结构和可变形 Ma

分类 学术 标签 DefMamba、 局限性、 性能比较、 深度扫描、 精度、 速度 发表评论

生成理解统一模型解读 (四):JanusFlow:使用 Rectified Flow 做生成的 Janus

2025年5月8日23时 作者 极市干货

解统一架构 Janus 的后续版本,借助 Rectified Flow 做生成。
>>
加入极市CV

分类 学术 标签 Diffusion Models、 Rectified Flow、 Transformer、 数据增强、 训练效率、 高分辨率图像生成 发表评论

五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了

2025年5月8日23时 作者 极市干货

项目提出了一种基于上下文的零样本图像编辑框架,结合LoRA-MoE混合微调和早期噪声过滤策略,仅需极

分类 学术 标签 Diffusion Transformer、 Emu、 In-Context Edit、 LORA、 MagicBrush、 MoE 发表评论

CVPR 2025 满分论文|收敛速度提升21倍!VA-VAE:重建 vs. 生成,解决 LDM 的优化困境

2025年5月6日23时 作者 极市干货

256 生成上实现了最佳 (SOTA) 性能,FID得分为1.35,同时在短短64个epoch内就达

分类 学术 标签 VF Loss、 关键概念、 扩散模型、 收敛速度、 方法论、 监督信号 发表评论

Diffusion Policy: 将扩散模型加噪-去噪的看家本领用于生成机器人动作啦!

2025年5月6日23时 作者 极市干货

器人视觉运动策略学习方法
Diffusion Policy,
通过将机器人策略表示为条件去噪扩散过程

分类 学术 标签 DDPM、 flow matching、 保持一致性、 多步决策、 抖动问题、 训练样本复用率 发表评论

CVPR 2025 北大提出SLAM3R:基于单目视频的实时密集3D场景重建

2025年4月28日23时 作者 极市干货

交流群,走在计算机视觉的最前沿
北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统

分类 学术 标签 7-Scenes、 Replica数据集、 SLAM3R、 实时性能、 轻量化设计、 重建精度 发表评论

100个GPU卡时、100T算法数据集等,济南免费AI大礼包领取步骤来了!

2025年4月28日23时 作者 极市干货

关注极市平台公众号,获取多模态大模型解读专栏、Transformer系列等技术综述文章。

分类 学术 标签 93、 Dingding、 LVM (Large Visual Multimodal)、 人工智能应用、 多模态大模型、 阿里巴巴达摩院 发表评论

只需 0.5B 参数,全面覆盖预训练+SFT + RL!极简自回归视觉生成框架SimpleAR

2025年4月28日23时 作者 极市干货

的极简自回归视觉生成框架。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录
1 Si

分类 学术 标签 INT8计算、 MLM预训练、 Transformer架构、 ViT模型、 多任务学习、 模型剪枝 发表评论

北航联合小红书发布大模型翻译最新研究成果,重塑社交生活化翻译新范式!

2025年4月28日8时 作者 极市干货

合发布大模型翻译研究成果 RedTrans,通过双模型回译采样和强化学习偏好优化等创新方法,解决了社

分类 学术 标签 刘子岩、 吕欣泽、 曹绍升、 王岳、 赵飞、 郭宏成 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面11 页面12 页面13 … 页面38 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • OpenReasoning-Nemotron:NVIDIA发布一系列蒸馏推理大语言模型
  • Claude Agent:用 AI Agent 实现工作流效率提升十倍的秘密
  • ArchScale:微软推出的神经架构预训练一站式工具
  • 字节开源了款多语言翻译模型:Seed-X,7B
  • 京东开源“核弹级”多智能体!GAIA 75.15%准确率超越业界知名产品!

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×