SOTA 归档 - 每时AI

Qwen新开源，把AI生图里的文字SOTA拉爆了

2025年8月5日12时作者量子位

通义模型家族开源Qwen-Image，一个200亿参数的图像生成基础模型。主打复杂文本渲染能力，能准确生成图文混合布局、海报等高质量图像，并在多项公开基准测试中表现出色。

2025年7月14日23时作者量子位

B站发布的IndexTTS2模型能够在保证音色和情感的同时实现精确时长控制，支持多种生成方式，并在多个评测中表现出色。

2025年7月11日23时作者极市干货

在ICCV 2025上，作者提出了Ross3D方法，通过重构式视觉指令微调和3D感知自监督实现了超越其他模型的出色表现。

2025年7月10日8时作者 NLP工程化

Hugging Face 发布了3B参数的SOTA模型 Smollm3，支持Think/No-Think模式，默认不支持汉语，未来将发布其详细信息及构建方法。

2025年7月4日23时作者极市干货

本文提出了一种名为REG的方法，通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练，并在ImageNet上实现了高达63倍的训练加速。

2025年6月30日23时作者头部科技

百度正式宣布开源文心4.5系列模型，该系列包含多模态异构MoE预训练、可扩展高效的基础设施以及针对特定模态的后训练技术。模型在多个基准测试中表现优异，覆盖了文本和多模态任务。

2025年6月30日16时作者 AI前线

百度正式开源文心大模型 4.5 系列，涵盖多种参数的混合专家（MoE）和稠密型模型，系列权重按照 Apache 2.0 协议开源。

2025年6月30日16时作者量子位

百度发布文心大模型4.5系列正式开源，涵盖多种参数和任务需求的10款模型，并提供API服务与Apache 2.0协议支持。

2025年6月27日16时作者机器之心

LLM 智能体自主决策能力提升带来安全性评估难题，研究者提出 AgentAuditor 解决方案，显著提升 LLM 评估器精确度至人类水平。

2025年6月17日16时作者量子位

DeepSeek新版R1-0528在编程能力测试中表现突出，能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码，并且对国内用户更为友好。