一句话就能生成「我的世界」,腾讯发布混元3D世界模型,继续开源|WAIC2025
腾讯发布混元3D世界模型1.0,能基于一句话生成完整、可交互的360度沉浸式3D世界,并支持物理仿真与编辑,将推动游戏开发和虚拟现实领域的发展。
腾讯发布混元3D世界模型1.0,能基于一句话生成完整、可交互的360度沉浸式3D世界,并支持物理仿真与编辑,将推动游戏开发和虚拟现实领域的发展。
港科大(广州)和字节联合出品的开源框架ComfyMind,能够根据一句描述生成高质量图像或视频。它结合树状规划与局部反馈执行机制,性能超越现有开源方法并接近闭源GPT-4o-Image。
多智能体系统正在成为复杂任务自动化的关键工具。Rowboat 是一款基于 OpenAI 的 Agents SDK 的 AI 驱动的多Agent构建器,支持自然语言描述需求生成工作流,并提供丰富的 API 和 SDK 支持。
autoMate是一款革命性的AI+RPA自动化工具,能够自动操作电脑界面、智能理解屏幕内容并自主决策。它简化安装流程、支持本地化部署,并通过自然语言描述任务实现复杂自动化流程,旨在帮助用户解放创造力,提高工作效率。
基于多模态大语言模型的DINO-XSeek目标检测模型实现了精准感知和理解复杂场景中的目标,能够通过自然语言描述识别出具体细节,如人物的穿着、位置等信息。该模型结合了视觉与语言理解能力,在实际应用中可应用于工业制造、安防、农业等多个领域。