最新AI眼镜格局报告:百镜大战拉开序幕,阿里DeepSeek高通成幕后赢家

近期最火热的AI硬件品类是AI眼镜。从Ray-Ban Meta、雷鸟V3到Rokid Glasses,不同配置和功能的产品层出不穷。量子位智库推出《AI眼镜「预选赛」格局报告》,研究基础大模型、计算芯片、产品功能等要素对AI眼镜市场的影响。

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

上海人工智能实验室联合多家单位提出了一种名为VeBrain的新模型,该模型通过统一感知、推理和控制建模方式实现了多模态大模型对物理实体的直接操控。它在视觉感知、空间推理和机器人控制方面均表现卓越,并且与现有模型相比,在多个基准测试中表现出最佳性能。

大神Karpathy炮轰复杂UI应用没有未来,Adobe首当其冲,网友:不提供文本交互,就是在阻挡AI浪潮

Karpathy预测未来复杂UI界面的应用将会被淘汰,仅提供文本交互的软件无法满足准专业用户的‘氛围式编程’需求。他将常见应用分为四个风险等级,并强调了后端接口和规范语言的重要性。同时,他还讨论了验证差距和AI辅助编程工作流的概念。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2,单张显卡即可高效处理万帧视频,编码2048帧仅需12秒。该模型在多个维度表现优异,并向社区开放权重,有望在影视分析、异常检测等场景中广泛应用。