新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。

上手智谱GLM-PC :帮你抢春运票、发微信,还不用付200美元,有它还要啥OpenAI的Operator

文章介绍了智谱研发的智能体AutoGLM和GLM-PC,它们能够通过简单的文字/语音指令模拟人类操作手机、电脑等设备,并展示在不同场景下的应用效果。GLM-PC支持移动端和PC端联动,可远程控制电脑完成多任务处理,甚至参与抢票和购买年货等活动。

具身智能行业发展研究报告 智库

2024年具身智能成为科技领域焦点,多模态大模型和世界模型推动技术发展与应用落地。特斯拉Optimus、Google DeepMind等进展显著,国内企业如宇树科技、优必选在工业及服务机器人领域取得突破。未来工业制造、物流等领域将受益,甲子光年智库发布研究报告深入分析具身智能行业发展前景。

GPT-4o级开源模型来了!MiniCPM-o:多语种情感控制的实时对话、仅8B、华人团队

华人团队发布的MiniCPM-o 2.6多模态大模型在视觉和语音方面表现优异,参数量仅8B。其平均得分70.2,在OpenCompass评测中支持1344×1344高分辨率图像处理,并能实时识别双语语音,且支持30多种语言。