扩散模型
鸽了两年放大招!稚晖君发布灵犀X2,上演“自行车杂技”+“葡萄缝针”神技,比人还会演
智元 X-Lab 发布灵犀 X2 具身智能机器人,具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型,实现高效协同作业、任务分解与精细动作序列生成。
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
首个商业级扩散大型语言模型Mercury发布,每秒生成超过1000个token,性能和效率显著提升。相比现有自回归LLM,其速度提高了5到10倍,同时保持了高精度。
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
复旦团队发表综述论文《A Survey on Video Diffusion Models》,系统梳理扩散模型在视频生成、编辑及理解领域的进展,涵盖300+文献。