A100 GPU 归档 - 每时AI

ICML 2025｜多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

2025年7月16日16时作者机器之心

香港科技大学联合Snap Research提出ThinkDiff方法，仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

2025年6月12日11时作者量子位

近日，微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度，并保持高质量画面。相比现有自回归视频生成模型，NFD采用帧内双向注意力和帧间因果依赖机制建模视频，并通过多步迭代和并行采样提高效率。

ICML 2025 长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

2025年5月13日8时作者机器之心

蚂蚁和中国人民大学的研究团队提出ViLAMP模型，实现对超长视频的高效处理。ViLAMP通过混合精度策略，在关键帧上保持高精度分析，大幅提升了视频理解效率，并在多个基准测试中超越现有方案。

专注于将图像文档转换为结构化文本SmolDocling

2025年3月25日23时作者 GitHubStore

IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型，专注于将图像文档转换为结构化文本，并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别，具备轻量级模型（基于 2.56 亿参数的 Idefics3 架构）以及开源协议。

酷！字节、USC、斯坦福等开源的一个动态人体图像动画模型：X-Dyna

2025年2月7日12时作者 GitHubStore

X-Dyna 是一个基于扩散模型的动态人体图像动画工具，能利用单张人像图片和驱动视频生成逼真的人物形象动画及表情、动作迁移等应用。

极客说｜微软 Phi 系列小模型和多模态小模型

2025年1月8日16时作者 AIGC开放社区

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31