阿里开源首个视觉推理模型,击败GPT-4o,网页一度404
阿里开源首个视觉推理模型QVQ,能读图像解数学题、算沙发面积等。它在多个基准测试中得分70.3分,超过GPT-4o和Claude 3.5 Sonnet。目前处于实验阶段,存在语言混合、递归推理等问题。
阿里开源首个视觉推理模型QVQ,能读图像解数学题、算沙发面积等。它在多个基准测试中得分70.3分,超过GPT-4o和Claude 3.5 Sonnet。目前处于实验阶段,存在语言混合、递归推理等问题。
2024年智驾领域竞争激烈,轻舟智航凭借基于地平线J6M的中高阶解决方案获得头部车企量产定点并达成50万套量产交付量。其技术已得到充分验证,有望助力城市NOA量产拐点的到来。
Enhance-A-Video团队发布了一种全新的视频生成增强算法。该算法通过调整时间注意力层输出的一个关键参数,能够大幅提升生成视频的细节表现和时序连贯性,无需额外训练即可直接应用于现有的视频生成模型。
研究团队利用大模型ASAL(人工生命自动搜索)探索ALife领域,该方法能有效生成包括康威生命游戏在内的多种ALife模拟。通过有监督目标搜索、开放式搜索和照明式搜索三种方法,ASAL在多个经典ALife环境中成功发现新生命形式,并且展示了开放性进化的特点。
OpenAI宣布将重启机器人项目,并聘请Meta机器人及消费硬件团队负责人Caitlin Kalinowski加入。此前该机构内部曾一度关闭过机器人部门,但认为通过人工智能实现物理世界的目标仍然可行。
宇树机器狗Unitree B2-W最新视频展示了其多项技能,包括爬山、涉水、跑酷等,并能够载人。波士顿动力Atlas也更新了视频展示后空翻技能,科技公司致力于提升机器人机动性和功能性。