学术
国产模型如何追上多模态OpenAI o1?你需要知道的全在这
Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,其性能与正式版 o1 最为接近。通过 Long2Short 技术,该模型能够在有限的 token 预算下实现高性能推理,提升用户体验和资源利用效率。
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。
354篇参考文献!史上最详尽综述:视觉定位任务十年发展系统性回顾
本综述系统性回顾了视觉定位(Visual Grounding)任务过去十年的发展历程,涵盖多种设置如全监督、弱监督、半监督等,并分析了各种数据集的表现。
1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首
谷歌发布Gemini 2.0 Flash Thinking新版本,引入1M长上下文窗口,在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程,展示了模型在多个领域的强大能力。
刚刚,特朗普联手奥特曼,狂砸5000亿美元启动AI「星际之门」
特朗普、OpenAI CEO Sam Altman及软银CEO孙正义宣布「星际之门」项目,投资5000亿美元打造新的人工智能基础设施以确保美国在人工智能领域的领导地位。
TNNLS’25|东北大学长江学者贾同团队提出SOTA模型AO-DETR,解决X-ray图像违禁品检测领域难题
↑ 点击
蓝字
关注极市平台
作者丨粉丝投稿
编辑丨极市平台
极市导读
东北大学贾同团队提出了一种名