极市干货
如何教会AI像人类一样“慢思考”?阿里&浙大联合提出CMMCoT:多图像理解能力大升级
阿里巴巴与浙江大学联合提出CMMCoT框架,融合多模态推理链与记忆增强机制,提升复杂多图像理解任务的跨图像推理和可解释性能力。
ICLR2025 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!
同济大学提出FaceShot,打破传统肖像动画局限,使非人类角色如表情包、玩具等也能’开口说话’。通过语义引导关键点匹配和坐标系建模动作变换,实现了高精度的动作迁移和身份保持。
解决Diffusion Transformers优化困境!南京大学与字节等提出DDT:解耦扩散模型
oder Transformer 能否加速收敛并增强样本质量?
>>
加入极市CV技术交流群,走在计
CVPR’25|CV 微调卷出天际,打破全参数微调性能枷锁!即插即用的提点神器Mona:我小,我强,我省资源
仅调整5%骨干网络参数,Mona方法在实例分割、目标检测等视觉任务中超越全量微调效果,显著降低适配和存储成本。
医学顶刊TMI 2025|Zig-RiR:高效医学图像分割的Zigzag RWKV-in-RWKV
本文介绍了一种名为Zig-RiR的新型医学图像分割模型,通过创新的嵌套结构和锯齿状扫描机制实现了对二维和三维医疗图像的高效精准分割,显著提升了计算效率并降低了GPU内存使用。
21岁华人开发AI作弊工具被哥大停学,转身拿下530万美元融资,网友:《黑镜》成真
21岁华人开发AI作弊工具,获530万美元融资。该工具帮助用户在考试、求职面试等场景中“作弊”。哥大因争议已停学两位创始人。
当国民饮品遇上视觉智能:一场覆盖24个工厂的安全革命正在上演
今麦郎与极视角合作打造AI智能化平台,成功实现全国24个生产基地的安全生产智能化管理。通过智慧安防AI管理系统,今麦郎提高了预警响应速度,并实现了跨区域工厂的安全联动监控,显著提升了生产安全管理水平。
Agentic 是个谎言,本质还是经典RL
本文深入探讨了Agentic概念,指出其实质仍是经典强化学习(RL)。通过分析字节跳动的VeRL框架和相关实践案例,强调构建高质量、高效能的环境对于推进大模型RL训练的重要性。