字节、清华开源UI-TARS:像人一样操控电脑的端到端Agent
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。
麻省理工学院的研究团队开发了一款仅重750毫克的四翼微型飞行器(MAV),实现了长达1000秒的持续悬停飞行,其特技动作如双重空翻的速度和精度远超传统机器人。这款飞行器在Science Robotics上发表,展示了仿生设计与工程创新的结合,未来有望应用于授粉、侦察等领域。
OpenAI推出Operator智能体,能够执行多种任务提高办公效率,成为数字员工。其市场前景包括电商秒杀、旅行规划等应用场景,并带动产业链上下游合作发展。