Qwen新开源,把AI生图里的文字SOTA拉爆了
通义模型家族开源Qwen-Image,一个200亿参数的图像生成基础模型。主打复杂文本渲染能力,能准确生成图文混合布局、海报等高质量图像,并在多项公开基准测试中表现出色。
通义模型家族开源Qwen-Image,一个200亿参数的图像生成基础模型。主打复杂文本渲染能力,能准确生成图文混合布局、海报等高质量图像,并在多项公开基准测试中表现出色。
Hugging Face 发布了3B参数的SOTA模型 Smollm3,支持Think/No-Think模式,默认不支持汉语,未来将发布其详细信息及构建方法。
本文提出了一种名为REG的方法,通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练,并在ImageNet上实现了高达63倍的训练加速。
百度正式宣布开源文心4.5系列模型,该系列包含多模态异构MoE预训练、可扩展高效的基础设施以及针对特定模态的后训练技术。模型在多个基准测试中表现优异,覆盖了文本和多模态任务。
LLM 智能体自主决策能力提升带来安全性评估难题,研究者提出 AgentAuditor 解决方案,显著提升 LLM 评估器精确度至人类水平。
DeepSeek新版R1-0528在编程能力测试中表现突出,能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码,并且对国内用户更为友好。