GPT-4o 归档 - 第8页共13页

刚刚，OpenAI 发布生图神器狙击 Google！一句话 P 图奥特曼现场玩梗，免费能用

2025年3月26日8时作者 APPSO

OpenAI 推出GPT-4o模型集成先进图像生成器，支持多模态输入输出、理解复杂指令等新功能，并向用户开放使用。

2025年3月21日14时作者 AI信息Gap

Claude 现在可以联网搜索了，Anthropic 官方宣布 Claude 升级版能够利用即时信息源回答问题。此前 Claude 一直无法通过联网工具获取更新的信息。

2025年3月16日23时作者新智元

新加坡国立大学华人团队提出InterFeedback框架，评估大规模多模态模型在人类反馈下的表现，结果显示最先进的LMM通过人类反馈纠正结果的比例不到50%。

2025年3月13日16时作者 Z Potentials

AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施，使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升，集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。

2025年3月12日16时作者量子位

上海交大团队通过实验发现多模态数据对语言质量的影响有限，提出OmniAlign-V数据构建Pipeline，包含高质量的多模态数据，并在多个基准测试中验证了其有效性。

2025年3月12日12时作者新智元

斯坦福大学OctoTools框架通过标准化工具卡、规划器和执行器，无需训练即可显著提高LLMs处理复杂任务的能力，比其他方法平均准确率高出9.3%。

2025年3月12日8时作者 APPSO

OpenAI 发布了新工具和 API，旨在简化构建 AI Agents 的过程，让开发者能更容易创建执行任务的智能体。这些新工具包括 Responses API、Web 搜索工具、文件搜索工具以及计算机使用工具等。

2025年3月7日16时作者新智元

OmniParser V2通过更大规模的数据集训练，提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异，平均准确率达到39.6%。

2025年3月6日16时作者 PaperWeekly

里的精妙布局，再到医疗档案中的多维数据展示，这些富含视觉元素的文档，不仅仅是简单的文字堆砌，而是融合

2025年3月4日23时作者 APPSO

ChatGPT 在生成玫瑰花图像时遭遇限制，但通过改变描述方式如使用复数形式、避开直接提及‘玫瑰’等方式，可以绕过这些限制成功生成。