学术
CVPR’25|一步推理高质量图像!用于蒸馏单步文生图扩散模型的时间无关统一编码器架构
本文提出时间无关统一编码器Loopfree,通过1步Encoder和4步Decoder实现单步推理的多步生成性能。克服了扩散模型所需几十步推理的问题,提高效率的同时保持高质量结果。
ICCV 2025 打造首个多模态视觉匹配数据集与评测基准,填补MLLM多模态视频匹配能力评测的空白
推出首个多模态视觉匹配基准 MMVMBench,系统揭示现有大模型在“识别同一个物体”任务中的能力短
尝试终结Attention Sink起因的讨论
文章提出Transformer中的Attention Sink现象源于模型需要Context Aware的Identity Layer,即注意力块需在某些情况下保持恒等变换。该假设通过首个token的value接近0、深层解码更明显、非归一化注意力和门控机制消除sink等多个实验证据支持,并解释了这一现象的原因。
一个模型超了DeepSeekR1、V3,参数671B,成本不到350万美元
MLNLP 社区致力于促进自然语言处理的研究与发展。Deep Cogito 提供了开源模型,通过迭代蒸馏与增强技术改进模型性能。Cogito v2 模型展示了强大的推理能力,并已在多个基准测试中优于多数开源模型。
在线教程丨Qwen3-Coder-Flash刷新开源AI编程SOTA,Agentic能力媲美Claude4
阿里巴巴旗下通义千问团队开源编程模型Qwen3-Coder-Flash,具备高效编码和复杂任务处理能力。其在代理编码、浏览器使用及其他基础编码任务上表现优异,并支持多种编程语言。
西湖 AGI Lab 发布 Detail++:多分支细节注入重塑复杂 Prompt 文生图体验
西湖大学 AGI Lab 推出 Detail++,无需训练即可显著提升复杂 Prompt 场景下的图文一致性与细节还原。通过分层子提示、渐进注入和注意力共享策略,Detail++ 能够有效避免属性溢出、错配及风格混合问题。