被传疯的 AI Agent 实操指南:7步解锁大模型隐藏技能!
《动手做AI Agent》介绍了涵盖GPT-4、LangChain等前沿技术的7个完整项目,帮助读者掌握AI Agent开发技巧,并深入理解其在办公自动化、智能调度、知识整合及检索增强生成领域的应用。
《动手做AI Agent》介绍了涵盖GPT-4、LangChain等前沿技术的7个完整项目,帮助读者掌握AI Agent开发技巧,并深入理解其在办公自动化、智能调度、知识整合及检索增强生成领域的应用。
多模态理解与生成新方法ThinkDiff在ICML2025上提出,仅需少量数据和计算资源,让扩散模型具备推理能力,并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力,大幅提高图像生成质量。
AniCrafter 通过引入3DGS Avatar + 背景视频作为条件控制视频扩散模型,实现任意角色在任意场景下的动画化任务。项目和代码链接已提供。
模引入流模型,借助“因果有序噪声序列”与“chunk‑wise 混合线性注意力”,在ImageNet
2025年7月11日,北京晴。文章介绍了文档智能在历史文献修复中的应用,包括数据合成和三阶段模型(OCR辅助的损坏定位、损坏内容预测、历史外观恢复)。AutoHDR-Qwen2-1.5B等开源项目展示了这种方法的效果。
结果公布,腾讯优图实验室共有8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前
HKUST、北航及商汤提出HarmoniCa框架,通过SDT和IEPO机制解决Diffusion模型推理速度慢和成本高的问题,实现高性能无损加速,并在多个任务中验证其有效性。
两位物理学家提出扩散模型创造力源于局部性和等变性限制,他们的研究被ICML 2025收录。他们通过数学模型证明了扩散模型的去噪过程实际上孕育了其“创造力”。