TNNLS 2025 通用的视觉Backbone!TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
香港大学俞益洲团队提出TransXNet,结合D-Mixer和Multiscale Feed-forward Network架构,在图像分类、目标检测、语义分割任务上均取得显著性能提升。
香港大学俞益洲团队提出TransXNet,结合D-Mixer和Multiscale Feed-forward Network架构,在图像分类、目标检测、语义分割任务上均取得显著性能提升。
本文提出了一种高效蒸馏方法AccVideo,通过合成数据集加速视频扩散模型生成速度,相比教师模型(HunyuanVideo)提升了8.5倍的生成速度,并显著减少了推理步骤。
U-Net 架构对齐到 ViT(Vision Transformer)特征空间
的新方法
U-REP
DeepSeek 发布文档宣布将开源自己的内部推理引擎,并与开源社区建立更广泛的合作。文档提到将与现有的开源项目合作,包括 SGLang 和 vLLM 项目。网友猜测 OpenAI 可能会发布多种模型和智能体产品。
thub.com/sgl-project/sglang/blob/main/python/sglan
ScienceCast与arXiv合作推出AI生成音频摘要,旨在打破科学知识传播障碍,促进开放科学理念实现。
作为一名Cursor常客,发现了网页版平台‘响指’简化了AI应用的生成、部署和分享流程,使用户无需代码基础就能创建小游戏、可视化报告和3D动画演示等应用。