CVPR’25|生成性能提升不靠堆参数!MaskUNet:基于掩码的扩散模型生成能力增强方法 2025年5月29日23时 作者 极市干货 MaskUNet 的新方法,通过对扩散模型中的 U-Net 参数进行掩蔽,显著提升了图像生成质量。
长推理≠高精度!自适应切换“秒答”与“深思”:省Token与提精度的双赢哲学 2025年5月27日16时 作者 PaperWeekly 现。但过度依赖思维链(CoT)推理会降低模型性能,产生冗长输出,影响效率。 研究发现,长 CoT 推
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合 2025年5月23日8时 作者 AI前线 混元旗舰大语言模型TurboS位列全球 第7,在国内大模型中仅次于Deepseek。放眼国际,排在前
阿里Qwen3真实测评:MCP、推理、数学、代码、文学…(OpenAI、DeepSeek、Claude等六家PK) 2025年4月30日14时 作者 卡尔的AI沃茨 考模式/非思考模式」的无缝切换、八款不同大小模型,从0.6B到235B,包含 MoE 和 Dense
ArXiv 2025 北航等机构发布最新综述:大语言模型集成(LLM Ensemble) 2025年4月18日16时 作者 AI前线 了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),
AI创业,为什么小红书是「冷启动」的第一步? 2025年4月16日23时 作者 Founder Park 让他感到治愈,之后他每天出门晒太阳,一年后焦虑症状不再出现。 工作近十年,他第一次冒出一个想法,能不