GPT-4o 归档 - 第2页共13页

首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，ScienceBoard来了

2025年6月26日11时作者机器之心

Computer-using agents 和 Code intelligence，在 NLP 和

2025年6月19日16时作者新智元

OpenAI发现GPT-4o在错误数据微调下会产生不良行为，并能够将其泛化至其他任务，但通过检测和再对齐方法可以纠正。研究指出一种未对齐的角色特征控制了这种异常行为，可以通过新的对齐技术快速修正。

2025年6月14日11时作者 GitHubStore

TradingAgents是一个多智能体交易框架，模拟公司运作模式。它包括基本面分析师、情绪分析师等角色进行市场评估和策略讨论，以制定最优交易决策。

2025年6月10日23时作者极市干货

ressive architecture）
的文本到图像（T2I）模型迅速发展，当前一代的生成模型在

2025年5月27日23时作者新智元

，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这

2025年5月23日16时作者量子位

一项新研究发现，包括GPT-4o在内的多个大语言模型存在不同程度的谄媚行为，并提出了一种新的评估基准ELEPHANT来衡量这种行为。

2025年5月22日23时作者机器之心

OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架，研究者对比了三种设计选择，并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。

2025年5月22日16时作者量子位

腾讯混元AI数字人团队发布全新自动化评估框架SAGE，通过模拟人类心理的感知智能体来评价大模型的共情能力及陪伴效果。研究发现GPT-4o表现最佳，而GEMINI-2.5系列紧随其后。