GPT-4.5 归档 - 第2页共7页

历史首次！GPT-4.5通过标准图灵测试，靠的竟是”装人设”？

2025年4月2日23时作者 AI寒武纪

UC San Diego团队通过实验验证GPT-4.5不仅通过了图灵测试，其表现甚至超过真人。胜率高达73%，远高于对照组人类对手的50%。研究发现人设提示是关键因素。

2025年3月28日14时作者 AI信息Gap

最近，OpenAI 推出的新模型 GPT-4o 价格高昂且性能升级显著。相比之下，DeepSeek 和谷歌的模型则更加实惠。更新后的 GPT-4o 在性价比、直觉和创造力等方面表现突出，但仍存在编程能力方面的不足。

2025年3月26日14时作者 AI信息Gap

DeepSeek-V3-0324 新模型发布，参数量6850亿。相比前代，在基准测试中表现卓越，尤其在推理能力、编程能力和中文写作方面有显著提升，并且修复了一些问题。

2025年3月25日23时作者量子位

DeepSeek官方发布DeepSeek-V3模型更新技术报告，V3版本参数量约为660B，在数学、代码类评测集成绩超过GPT-4.5，并展示了其在前端开发、中文写作、中文搜索及工具调用等方面的提升。

2025年3月24日23时作者 PaperWeekly

文章介绍了一篇关于对抗攻击的研究成果，该研究提出了一种新的方法M-Attack来提高对大型视觉语言模型的攻击成功率，并成功应用于多个商业模型中。

2025年3月22日14时作者 IT桔子

OpenAI再次指控DeepSeek存在重大风险，并要求美国政府采取行动禁用DeepSeek，同时其他国家如意大利、澳大利亚和韩国也对DeepSeek实施了禁令或限用措施。然而，DeepSeek通过开源模型打破了技术垄断，推动了AI普惠，成为人人可用的AI。

2025年3月5日14时作者 AI信息Gap

用一文记录AI大模型领域风云变幻的一月，LiveBench和LMSYS排行榜对比显示，Claude 3.7 Sonnet-Thinking荣登榜首，GPT-4.5紧随其后。LMSYS StyleCtrl排名中，GPT-4.5和Grok 3表现优异。