阶跃多模态团队提出「慢感知」概念:迈向视觉system2 (o1) 的第一步
论文提出慢感知概念,通过分解和流动感知几何图形来提高视觉系统2的精细感知能力。研究显示,慢感知能提升模型对几何线段的解析能力,并在多种指标上优于基线方法。
论文提出慢感知概念,通过分解和流动感知几何图形来提高视觉系统2的精细感知能力。研究显示,慢感知能提升模型对几何线段的解析能力,并在多种指标上优于基线方法。
UI-TARS 是一种智能体模型,可以直接理解并操作图形界面的原生 GUI 智能体,它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法,UI-TARS 使用一个“大模型”进行端到端学习,提升了灵活性与稳健性,并在某些测试上超过了 Claude 和 GPT-4。
一款多功能AI内容创作工具AI-ContentCraft整合了写作、配音和绘图功能,支持中英文创作。它能自动生成高质量的文字内容,并提供与文字相符的语音及图像呈现,有效提升创作者的工作效率。
OpenAI开发的高级AI编码助手旨在媲美L6级软件工程师,有望提升企业开发效率并重塑软件行业。该智能体能处理代码重构、优化数据跟踪,并集成个性化功能。
OpenAI发布Operator系统,首个能够自主操作电脑的AI系统,展示了在订餐、购物和预订机票等方面的出色能力,并具备多重安全保障机制。
OpenAI发布新功能Operator,能自动化复杂任务如餐厅预订和旅行规划,适用于美国Pro专业用户;同时免费版与Plus版ChatGPT获额外资源。