在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割
清华大学团队提出YOLOE模型,实现了开放物体探测与分割。该模型基于YOLO架构改进,具备多模态能力,能听懂语言指令、看懂图像,并自主发现新事物。HyperAI超神经平台上线了详细的部署教程。
清华大学团队提出YOLOE模型,实现了开放物体探测与分割。该模型基于YOLO架构改进,具备多模态能力,能听懂语言指令、看懂图像,并自主发现新事物。HyperAI超神经平台上线了详细的部署教程。
智谱发布全球首个通用Agent产品AutoGLM沉思,不仅能思考还能实时操作浏览器。通过’先思考再执行’策略和强大的技术栈,AutoGLM沉思能完成复杂的任务并提供详细报告。它已在三个实际场景中被测试,并且在信息获取方面表现出色,但处理速度较慢。
电动汽车百人会首次聚焦智能汽车、低空飞行和人形机器人。地瓜机器人CEO王丛表示,人形机器人将在2030年爆发,但关键零部件国产化仍需努力。地瓜机器人提供软硬件解决方案支持具身智能机器人的研发与应用。
蚂蚁清华团队开源的AReaL-boba框架,显著提升了模型训练效率和推理能力。32B规模模型仅需200美元、200条数据即可复现,且在数学推理上达到SOTA水平,训练吞吐性能提升显著,成本大幅降低。
Runway发布Gen-4,大幅提升图像生成能力。它能精确创建人物、场景和物体,并保持一致的世界观和视觉风格,让电影级画面成为可能。
Runway发布新一代视频生成模型Gen-4,支持从单张照片生成电影级别的动态视频,并具备高保真和物理规律理解能力。Gen-4能保持角色形象一致、还原真实世界现象,已被应用到多个微电影制作中。