视觉理解归档 - 第2页共3页

OpenAI发布GPT-4.1：百万token上下文，全方位碾压4o并且价格更低，GPT-4.5三个月后下线

2025年4月15日11时作者 Founder Park

，分别是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，它们仅通过 API

2025年4月15日8时作者新智元

了编程、指令跟随和长上下文处理能力的全面飞跃！由中科大校友Jiahui Yu领衔的团队打造。与此同时

2025年4月14日8时作者开源星探

DroidRun 是一款新的开源 AI 手机操作工具，能像人类一样操作 Android 手机。结合视觉理解与 UI 结构提取技术，实现流畅的交互体验。它不仅能打开 App、发送消息，还能自动导航菜单、处理错误，甚至完成复杂任务如订车或录视频。项目尚未正式开源，但即将上线 GitHub 仓库。

2025年3月4日16时作者机器之心

视觉强化微调项目 Visual-RFT 通过规则奖励和强化学习方法，实现了视觉语言模型在目标检测、分类等任务中的高效提升。项目已开源，欢迎加入。

2025年3月4日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年1月24日14时作者 AI先锋官

临近春节，豆包1.5 Pro发布，包含基础模型、视觉和实时语音模型。测试显示其推理能力、视觉理解能力和语音识别能力均有提升，但仍有待提高。基础模型已开始灰度测试，其他两个模型已上线。

2025年1月21日8时作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
来了来了，月之暗面首个「满血版o1」来了！这是除O

2024年12月31日16时作者机器之心

华为诺亚方舟实验室提出统一多模态大模型ILLUME，仅使用约15M图文对数据实现视觉理解、生成等任务的出色表现，并采用自提升式多模态对齐策略促进理解和生成能力协同进化。