字节、清华开源UI-TARS:像人一样操控电脑的端到端Agent
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。
OpenAI推出Operator智能体,能够执行多种任务提高办公效率,成为数字员工。其市场前景包括电商秒杀、旅行规划等应用场景,并带动产业链上下游合作发展。
特朗普宣布「星际之门」计划,投资5000亿美元打造AI基础设施,目标成为全球领导地位。该计划由OpenAI、软银、甲骨文等牵头,初期拟投入1000亿美元,在得克萨斯州等地建数据中心,带动就业与经济增长。
新年AI圈热闹非凡,智谱发布GLM-PC 1.1版本,支持深度思考和复杂任务处理。该版本在视觉和代码思维结合下显著提升智能水平,展示了从微信发送祝福到制作图片和视频的全面能力。尽管存在一些问题,但总体表现令人振奋。
大模型已成为中国AI研究主流。DeepSeek在中文语义处理方面表现出色,成功翻译了俄罗斯教授的经济学导论。DeepSeek还提供了文本生成、分类与情感分析、问答系统等多样的功能。