深度学习
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
UC伯克利团队研发的新系统VideoMimic能够通过视频训练机器人模仿人类动作,已成功让宇树G1机器人学会多种复杂动作。系统利用深度相机和IMU等传感器获取环境信息及机器人姿态,并将这些数据作为策略模型的输入进行实时推理控制。
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)今年获AISTATS时间检验奖。该论文提出中间层监督思想,继承并发展了后续作品REPA和U-REPA,对计算机视觉领域产生了深远影响。
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
阿里通义实验室高层薄列峰离职,加入某互联网大厂担任多模态模型部副总经理。此前,通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。
入选CVPR 2025,哈工大团队提出分层蒸馏多示例学习框架HDMIL,快速处理千兆像素病理全切片图像
授和张永兵教授团队,创新提出一种分层蒸馏多示例学习框架
HDMIL,旨在快速识别不相关的 patch
RAG检索系统的两大核心利器——Embedding模型和Rerank模型
在RAG系统中,Embedding和Rerank模型是核心组成部分。前者将文本转化为低维向量以捕捉语义信息;后者则用于对候选结果进行重排序,提升其相关性。
CVPR 2025 双目匹配新突破!DEFOM-Stereo高效利用单目深度基础模型
本文介绍了一种基于深度基础模型的循环双目匹配框架DEFOM-Stereo,该框架利用Depth Anything V2的强大预训练ViT和随机初始化的CNN构建联合编码器,并设计了用于单目视差初始化、尺度更新的方法。实验结果表明,在仿真域到真实域的零样本泛化上以及在线Benchmark中均表现优异。