量子位
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
近日,微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度,并保持高质量画面。相比现有自回归视频生成模型,NFD采用帧内双向注意力和帧间因果依赖机制建模视频,并通过多步迭代和并行采样提高效率。
小扎“超级智能”小组第一位大佬!谷歌DeepMind首席研究员,“压缩即智能”核心人物
小扎正通过高薪挖角顶尖工程师组建超级智能小组,谷歌DeepMind首席研究员Jack Rae和Meta AI语音主管Johan Schalkwyk已确认转投。
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
南洋理工大学MMLab团队提出GUI-Reflection框架,赋予多模态GUI智能体‘自我反思’能力,系统性地打通了‘犯错—反思—修正’的认知闭环。
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式,将强化学习深度融入预训练阶段,通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
香港科技大学(广州)等机构提出医学世界模型MeWM,能够基于临床治疗决策模拟肿瘤演变过程,并支持个性化治疗方案选择。其核心功能包括肿瘤演变模拟、生存风险预测和临床决策闭环优化。在真实肝癌场景下验证了其有效性,通过生成逼真的术后影像提高了医生的识别准确率。
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 复旦&字节
复旦大学和字节跳动团队联合提出CreatiDesign新模型,可实现高精度、多模态、可编辑的AI图形设计生成。该模型解决了扩散Transformer架构在处理图形设计时面临的统一建模、精细解耦控制及大规模高质量标注数据缺失等问题。