现在不是 AI 能不能写的问题,而是 —— 你选谁来写?
01|开篇:AI 都能写,那我该用谁写?
2025年,AI 写作不再是“能不能写”的问题,而是“哪个写得像人、像我、像爆款”。
OpenAI 有最牛的“非思考”模型 GPT-4.5
和当前最强的推理模型 o3
;Anthropic 有刚刚发布、号称最强编程模型的 Claude 4
;大善人谷歌有几乎免费的 Gemini 2.5 Pro
。
所以我花了 3 天时间,做了 100 多条测试,挑选出精华问题,用创作者的标准,不讲技术参数、不看宣传文案,直接看“写出来的东西”:
-
谁能写出爆款标题? -
谁模仿得了古龙? -
谁能写得像爽文? -
谁说人话分析财报? -
谁能写出一篇真·像人的高考作文?
写给公众号创作者,内容从业者,也写给那些“模型太多挑花了眼”的小可爱。
02|测试设计:真实写作任务,五项实测
我选了五个比较有代表性的内容创作任务,全部真实场景化。
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
模型参赛名单:GPT-4.5
(ChatGPT)、o3
(ChatGPT)、Claude Sonnet 4
(claude.ai)、Claude Opus 4
(claude.ai)、Gemini 2.5 Pro
(谷歌 AI Studio)。
03|实测一:爆款标题谁最会整活?
为“AI 写作正在取代初级文案”这个主题,写 5 个公众号爆款标题,风格包括但不限于:震惊类、实用类、知乎风、讽刺风等。尽可能多样化,强调传播性与点击率潜力。
点评总结:
OpenAI 的 GPT-4.5
和 o3
表现中规中矩,能用但不惊艳;Claude Sonnet 4
也差不多,不够出彩;Claude Opus 4
和 Gemini 2.5 Pro
表现亮眼,最典型的就是“震惊风”标题,其他 3 位还停留在“震惊!xxx”的时候,Claude Opus 4
和 Gemini 2.5 Pro
已经升级到了 “月薪3万的文案被ChatGPT秒杀!我亲眼看着同事被AI替代的全过程”,“一夜变天!90%初级文案或将失业?AI正悄悄“卷”死你!”这种不提“震惊”但处处是“震惊”的标题。
模型输出展示:
-
GPT-4.5

-
o3

-
Claude Sonnet 4

-
Claude Opus 4

-
Gemini 2.5 Pro

04|实测二:谁最能模仿古龙?
模仿古龙小说的语言风格,写一篇完整的短篇武侠小说,要求用词冷峻,节奏短促,带诗意和画面感。
点评总结:
OpenAI 的 GPT-4.5
和 o3
语言艺术上更胜一筹,其中 GPT-4.5
的故事性略差,o3
故事更加饱满。
Claude Sonnet 4
≈ GPT-4.5
,总体不错。
令人眼前一亮的是 Claude Opus 4
,提示词一致的前提下,输出的篇幅最长,并且是远超其他模型,共 3900+ 字,7000+ tokens,是真的长!
Gemini 2.5 Pro
的输出最短,仅有 580 个字。整体不错,但有点中规中矩。
模型输出展示:
-
GPT-4.5
https://chatgpt.com/canvas/shared/6834b680abe081918701edc1d1aad8c6

-
o3
https://chatgpt.com/share/6834b646-143c-8004-b7ea-802e516e1663

-
Claude Sonnet 4
https://claude.ai/public/artifacts/0e774c24-a7e0-41ca-8155-bb075077911d

-
Claude Opus 4
https://claude.ai/public/artifacts/6e24921c-3841-4c5d-8ca3-1067273147b7
原文太长,部分截图。可通过上面的链接查看全文。

-
Gemini 2.5 Pro

05|实测三:谁最能写玄幻网文?
写一段玄幻小说的开篇章节,男主觉醒血脉被族人轻视,要有反转感、节奏感、网络小说的“上瘾感”,字数不少于 3000 字。
点评总结:
GPT-4.5
仅输出 1200+ 字,铺垫、反转感不足,更像是“引言”而非“开篇章节”;o3
输出 2700+ 字,细节描写明显要比 GPT-4.5
强了不止一点,也有对接下来小说走向的铺垫,就是反转感不是特别强。
相较于 ChatGPT 的“摸鱼”,Claude 显得很实在,其中 Claude Sonnet 4
直接爆肝 4700+ 字,Claude Opus 4
也有 3950 字。Sonnet 细节更丰富,Opus 网文感更强一些,两者表现的都不错。
Gemini 2.5 Pro
也很能写,3550 字,反转、节奏感都不错。更值得一提的是,它甚至贴心地设计好了血脉设定和修炼体系。
模型输出展示:
-
GPT-4.5
https://chatgpt.com/canvas/shared/6834bcff6a30819189146d135d0ce669

-
o3
https://chatgpt.com/share/6834be22-e5d4-8004-a33e-688ebf0a32eb

-
Claude Sonnet 4
https://claude.ai/public/artifacts/ff39344e-ea92-4b1d-befd-45bc98d77f8f

-
Claude Opus 4
https://claude.ai/public/artifacts/2cbed748-0f3e-45cc-bad1-16154c23fff1

-
Gemini 2.5 Pro

06|实测四:财报分析,谁写得不像 AI?
写一段关于苹果公司 2025 年 Q2 财报的分析,要求引用真实数据,语言克制、观点清晰。
点评总结:
这个测试里我一律没有提供相关资料,是希望同时测试一下它们各自的联网搜索能力和分析能力。
论分析能力,当属 o3
最强,思考时长 2 分半,调用了多轮搜索和 Python 代码解释器来分析,输出的深度和全面程度也是最高的。
其次是 Claude Opus 4
,同样也是进行了多轮搜索工具调用,输出质量也比较高。
Gemini 2.5 Pro
本轮测试综合表现平平,输出结果多为谷歌搜索的总结,而不是模型自身的分析结论。
模型输出展示:
-
GPT-4.5

-
o3

-
Claude Sonnet 4

-
Claude Opus 4

-
Gemini 2.5 Pro

07|实测五:谁写的高考作文,像个真人?
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
点评总结:
如果我是高考作文阅卷老师,我可能会给 Claude Opus 4
写的《问题的消亡与新生》最高分,其次是 Claude Sonnet 4
的《在答案的时代,问题更珍贵》,这两篇更像是真人写出来的“作文”,思辨性够强,金句感好,收束自然。比如 Opus 写的 “每一个被照亮的角落,都会显现出更多的阴影;每一个被解答的疑问,都会生发出更多的困惑”、“毕竟,一个没有问题的世界,才是真正令人担忧的世界”,以及 Sonnet 写的 “问题不会消失,它们只是在等待更有准备的心灵去发现和探索”。
OpenAI 的 GPT-4.5
和 o3
写的高考作文 AI 味太浓了,就像是在用 markdown 格式罗列观点,尽管 o3
的引语很丰富,但模版痕迹重。
Gemini 2.5 Pro
写的整体不错,个人感觉文风“宏大但虚”。
模型输出展示:
-
GPT-4.5

-
o3

-
Claude Sonnet 4

-
Claude Opus 4

-
Gemini 2.5 Pro

08|最终结论:AI 很能写,选谁很关键
在这 5 项测试中,各家 AI 模型的风格倾向已经相当明显:
|
|
|
---|---|---|
GPT-4.5 |
|
|
o3 |
|
|
Claude Sonnet 4 |
|
|
Claude Opus 4 |
|
|
Gemini 2.5 Pro |
|
|
写得像人,不代表写得像你。
真正优秀的 AI 写作模型,可能不是最聪明的,却是最能与你形成“搭档感”的那个。
那么,你觉得谁才是写作最强的 AI?欢迎评论区留言,一起聊聊。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)