视觉生成模型归档

ACL 2025 Oral 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

2025年7月18日8时作者机器之心

来自上海人工智能实验室与新加坡南洋理工大学的研究者开发了Evaluation Agent，一个AI评估工具，能根据用户需求动态分析视觉生成模型的表现，提高评估效率、灵活性和可解释性。

2025年7月8日23时作者极市干货

归架构，通过将文本离散 Token 与图像连续 Token 融合，共同推动图像生成与视觉理解任务。

2025年6月26日16时作者机器之心

中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队合作研究Diffusion Transformers的超参优化，提出μP理论并将其应用于实际模型训练。通过大规模实验验证了该方法的有效性，并开放论文代码供进一步研究。

2025年5月31日8时作者极市干货

生成任务相统一的Transformer模型
Show-o，它通过结合自回归和离散扩散建模，创新性地用

2025年4月2日14时作者 AI先锋官

今年以来，各类AI产品和模型层出不穷。近日，Runway发布了其最新研发的Gen-4 AI视频生成模型，实现了高保真度、一致性及指令遵循度的显著提升，并能保持角色、物体和场景的一致性。

2025年4月1日11时作者新智元

Runway发布Gen-4，大幅提升图像生成能力。它能精确创建人物、场景和物体，并保持一致的世界观和视觉风格，让电影级画面成为可能。

2025年2月9日23时作者机器之心

清华大学提出的新算法Guidance-Free Training（GFT）实现了原生无需引导采样的视觉模型训练，与CFG效果相当但成本减半。GFT简单高效且通用，可广泛应用于多种视觉生成模型。