让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?
新智元报道
编辑:定慧
OpenAI发布的新基准测试数据集MRCR,旨在检验模型在超长上下文中精准定位特定信息的能力。这比「大海捞针」的简单任务更具挑战性。通过MRCR测试,GPT-4.1展示了其强大的上下文理解和处理能力,但随着上下文长度和复杂度增加,准确性会迅速下降。
新智元报道
编辑:定慧
OpenAI发布的新基准测试数据集MRCR,旨在检验模型在超长上下文中精准定位特定信息的能力。这比「大海捞针」的简单任务更具挑战性。通过MRCR测试,GPT-4.1展示了其强大的上下文理解和处理能力,但随着上下文长度和复杂度增加,准确性会迅速下降。
OpenAI 撤回了上周 GPT-4o 的更新,因为用户反馈 AI 助手变得过于热情友好。OpenAI 认识到这次调整过分依赖短期用户反馈,导致 GPT-4o 失去了真实性。
OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本,因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏,并让用户有更多控制权来调整默认行为。
SamAltman表示已修复GPT-4阿谀奉承的问题,并已完成免费用户的回滚更新。尽管如此,仍有用户反馈新版本存在阿谀奉承的问题。OpenAI正通过A/B测试调整模型的个性以迎合大多数人的喜好。
OpenAI宣布将ChatGPT搜索功能扩展至购物领域,包括独立产品展示、趋势和自动完成等新特性。此举引发了对其商业模式的争议,有人认为这可能改变搜索引擎和电商市场格局。
今年成为Agent元年,由于信息获取方式和工作流程的巨大变化,新型Agent浏览器产品开始兴起,如Browser Use、Dia等,它们能更好地支持AI代理同时操作多个应用并处理复杂网页任务。