复杂场景归档

AI 版《猫和老鼠》刷爆外网！零剪辑自动生成，60 秒神作刷新 AI 视频天花板

下午11时 2025/04/11 作者 APPSO

伯克利、斯坦福联合英伟达的研究成功生成了长达一分钟的流畅视频，且保持一致性和故事完整性。通过引入测试时训练层提升扩散Transformer模型能力，实现了复杂的多场景故事生成。研究使用《猫和老鼠》动画集进行验证，展示了AI在复杂动态场景中的学习与适应能力。

AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标

下午11时 2025/03/06 作者量子位

基于多模态大语言模型的DINO-XSeek目标检测模型实现了精准感知和理解复杂场景中的目标，能够通过自然语言描述识别出具体细节，如人物的穿着、位置等信息。该模型结合了视觉与语言理解能力，在实际应用中可应用于工业制造、安防、农业等多个领域。

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

下午11时 2025/02/20 作者机器之心

VLM-R1 是一个将 DeepSeek R1 方法应用于视觉语言模型的新开源项目，展示了其在稳定性、泛化能力等方面的优越性能，并提供简单易用的训练流程。

TIP 2025｜北大清华等提出多目标跟踪新方法和数据集

下午11时 2025/02/17 作者极市干货

受到蜂群复杂运动模式的启发，本文提出了一种融合运动与外观特征的并行关联跟踪新范式，并构建了一个极具挑

ICLR 2025｜高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

下午4时 2025/02/05 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

3分钟vs20分钟！数采效率7倍提升，穹彻×上交大联合提出机器人操作野外学习框架

下午11时 2025/01/16 作者机器人大讲堂

近年来，机器人操控作为机器人学习领域的重要研究方向，受到广泛关注。
随着深度学习等相关技术的快速发展

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

下午4时 2025/01/08 作者新智元

新智元报道
编辑：LRST
【新智元导读】
Aria-UI通过纯视觉理解，实现了GUI指令的精准定位

企业级Agent已进入生产力阶段｜BetterYeah AI张毅@MEET

下午8时 2024/12/16 作者量子位

BetterYeah AI CEO张毅在MEET2025智能未来大会上分享了企业Agent应用加速成功的关键——利用数据和AI驱动的方法建立反馈评估-自学习-验证的闭环。目前已有数百家头部企业在其平台上完成生产级Agent落地，提高了企业的生产力并带来了业务价值提升。张毅强调了建立这一闭环的重要性，并介绍了BetterYeah平台在帮助企业开发Agent应用方面的功能和优势。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30