新加坡国立大学归档

自回归模型的新突破：首次生成2048×2048分辨率图像

上午8时 2025/04/29 作者 NLP工程化

研究人员提出TokenShuffle方法显著减少多模态大语言模型中的视觉token数量，提高效率并促进高质量图像生成，超越同类自回归和强扩散模型。

迈向长上下文视频生成！FAR重塑下一帧预测范式，短视频与长视频双双登顶SOTA

上午8时 2025/04/28 作者 PaperWeekly

本文首次系统性地研究并提出了高效建模长上下文视频生成的方法，通过重构视频生成任务为逐帧预测，并引入长短时上下文的非对称patchify策略和多层KV Cache机制，实现了高效的长视频训练与长上下文视频生成。

质量无损，算力砍半！达摩院开源视觉生成新架构，出道即SOTA｜ICLR 2025

下午11时 2025/04/24 作者量子位

达摩院在ICLR 2025提出了动态架构DyDiT，通过智能资源分配将DiT模型的推理算力削减51%，生成速度提升1.73倍，FID指标几乎无损，并且仅需3%的微调成本。

迈向长上下文视频生成！NUS团队新作FAR同时实现短视频和长视频预测SOTA，代码已开源

下午4时 2025/04/23 作者机器之心

本文由 NUS ShowLab 指导完成，首次系统性研究长上下文视频生成。提出帧自回归模型FAR，有效解决长视频训练计算挑战，显著提升长时序一致性。

简易复现GPT4o转动漫工具

上午11时 2025/04/04 作者路过银河AI

简易工具EasyControl支持一键转换GPT-4o风格，兼容多条件控制和插件功能，已在GitHub上发布预训练模型和Hugging Face演示空间。

2025苹果AI学者名单公布，黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

下午4时 2025/03/27 作者机器之心

Apple Machine Learning Research）正式公布了 2025 年 AI（人工

一文看懂多模态思维链

上午11时 2025/03/25 作者量子位

多模态思维链（MCoT）系统综述发布，介绍了其基本概念、分类法和应用场景，并探讨了当前挑战及未来研究方向。通过推理构建视角、结构化推理视角等六大技术支柱提升模型能力，改变机器人的操作、自动驾驶的安全性、医疗诊断的速度与准确性以及教育的个性化教学等方面。论文链接：https://arxiv.org/pdf/2503.12605

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30