GPT-4o 归档 - 第13页共13页

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

2024年12月11日13时2024年11月23日20时作者 PaperWeekly

本文介绍了一项新的动态生成的测评基准DynaMath，用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型（如GPT-4o）在简单数学题上的表现，发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体，评估了14个最先进的视觉语言模型的表现，揭示了其推理稳健性的局限性。

OpenAI 这个意想不到的更新后， AI 拿捏了《再见爱人4》的发疯文学

2024年11月21日19时作者每时AI

OpenAI 更新了GPT-4o模型，提升了创意写作能力和处理上传文件的能力。GPT-4o能写科幻小说、古龙风格的小说以及脱口秀内容等。尽管在诗歌和歌词写作上还有待提升，但整体表现不错。OpenAI认为这将有助于改进人类使用模型的方式，并可能改变未来的内容创作方式。

NeurIPS 2024｜上海AI Lab提出实时检索增强框架，无缝整合任意多模态大模型

2024年11月20日23时作者每时AI

↑ 点击
蓝字
关注极市平台
作者丨李川皓上海人工智能实验室、北京理工大学
来源丨PaperWee

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31