我测试了所有顶级的大模型在前端开发中的表现，其中一个模型表现尤为突出

本周对AI来说可谓是疯狂的一周。

DeepSeek V3-0324 刚刚发布，从基准测试来看，它是目前最强的AI模型，甚至超越了像 Grok 3 这样的推理模型。

几天后，谷歌又推出了 Gemini 2.5 Pro，再次在基准测试中超越了所有其他模型。

随着这些新模型的不断推出，大家都在问同一个问题：

“哪个是最适合编程的模型？”

这是我们集体关注的焦点。

本文将通过一个真实的前端开发任务来探索这个问题。

任务准备

为了让 LLM 顺利完成任务，我们需要提供足够的信息。下面是我们的准备方式。

背景介绍：我正在构建一个算法交易平台，其中一个核心功能名为 “Deep Dives”，它是由 AI 生成的全面尽职调查报告。

尽管我已经将这个功能发布上线，但它还没有一个经过 SEO 优化的入口。因此，我决定测试一下各大顶级 LLM 能否为这个功能生成一款优秀的落地页。

测试方法：

编写系统提示词，提供足够的上下文，让模型能够一键生成解决方案。
所有模型使用相同的系统提示词，以确保公平对比。
仅凭我的主观感受，评估前端页面的视觉效果和质量。

我首先从系统提示词开始。

构建完美的系统提示词

为了打造高质量的系统提示词，我采取了以下步骤：

提供 Markdown 版的文章，让模型理解这个功能的背景和作用。
提供代码示例，让模型知道要生成页面的关键组件。
列出约束与需求，例如，我希望用户可以直接从落地页生成报告，并在提示词中明确说明这一点。
撰写详细的目标说明，明确我们希望构建的内容。

完整版提示词可以加群免费获取。

接下来，我使用这个提示词，对顶级大模型的输出进行测试，包括：

Grok 3
OpenAI o1-pro
Gemini 2.5 Pro
DeepSeek V3

Claude 3.7 Sonnet

以上排序是我按测试结果从差到优的顺序排列的。

那么，让我们从这四个模型中表现最差的开始：Grok 3。

测试 Grok 3 在真实前端任务中的表现

说实话，尽管我对 Grok 3 抱有很高的期望（因为它在其他复杂的编程推理任务中表现不错），但在这个任务中，它的表现却相当普通。

它生成的代码水平，大概也就是 GPT-4 的水平，完全没有展现出任何特别之处。

看看这个页面就知道了——这根本不是一个经过 SEO 优化的页面，说实话，谁会用这样的页面呢？

相比之下，GPT o1-Pro 表现稍好一点，但也没有好太多。

测试 GPT o1-Pro 在真实前端任务中的表现

GPT o1-Pro 在保持代码示例中的样式方面做得更好。整体视觉效果比 Grok 更胜一筹，尤其是搜索栏的设计更为美观。

它还能正确使用我提供的图标库，格式化方面也基本在线。

但问题是——这远远达不到生产级别的标准。无论是 Grok 3 还是 o1-Pro，它们的输出水平都像是刚上“Web开发入门”课程的实习生写出来的。

不过，接下来的模型表现要好得多。

测试 Gemini 2.5 Pro Experimental 在真实前端任务中的表现

Gemini 2.5 Pro 在第一次生成时就交出了惊人的答卷。当我看到它的结果时，真的被震撼到了——页面看起来非常专业，SEO优化到位，并且完全符合所有要求。

它甚至复用了我现有的组件，比如 Deep Dive 报告页面的展示组件，这让整个页面的风格保持一致，极具可用性。

在看到这个结果后，我本以为它会是这次测试的最佳模型……

直到我看到了 DeepSeek V3-0324 的表现。

测试 DeepSeek V3-0324 在真实前端任务中的表现

DeepSeek V3-0324 的表现远超我的预期。作为一个非推理型模型，它的输出却极其全面。

页面不仅包含了精美的英雄区（Hero Section），还提供了惊人的细节，甚至还添加了用户推荐（Testimonial）部分，整体完成度极高。

看到这里，我已经对这些模型的进步感到震撼，并且几乎笃定——DeepSeek V3-0324 会是最终的赢家。

直到我测试了 Claude 3.7 Sonnet……结果让我彻底惊呆了。

测试 Claude 3.7 Sonnet 在真实前端任务中的表现

在相同的提示词下，Claude 3.7 Sonnet 生成了一个极其复杂且符合我所有要求的前端落地页，甚至超出了预期。

它不仅允许用户直接在 UI 界面上生成报告，还额外提供了全新的组件，详细介绍了功能、SEO 优化文本、完整的功能描述、用户推荐部分等等。

这不仅仅是完整，而是“超完整”。

不仅仅是视觉效果：代码质量分析

尽管这些落地页在视觉呈现上都非常优秀，但代码层面也值得深入讨论。

1. 组件复用情况

不同模型在使用共享组件和库方面表现不同。例如：

DeepSeek V3-0324 和 Grok 3 未正确实现 OnePageTemplate（负责页眉和页脚的组件）。
o1-Pro、Gemini 2.5 Pro 和 Claude 3.7 Sonnet 正确复用了这些模板，让代码更加规范和一致。

2. 代码质量

所有模型的代码整体上都干净、可读性强，命名规范且结构清晰，没有明显的错误。这说明它们在代码编写方面已经相当成熟。

3. 移动端适配

由于我使用的是 Material UI，所有模型都成功生成了适用于移动端的代码，保证了良好的跨设备用户体验。

4. Claude 3.7 Sonnet 的独特优势

Claude 3.7 Sonnet 生成的代码量最多，但同时仍然保持了高可维护性。它不仅提供了更多组件和功能，而且代码结构良好，无缝集成到现有项目中。

结果分析：模型的成本 & 选择建议

尽管 Claude 3.7 Sonnet 在代码质量上无可挑剔，但在选择模型时，开发者还需要考虑其他因素，如成本、速度和使用场景。

1. 代码质量 vs. 价格

2. 选型指南

如果你追求最好的代码质量，选择 Claude 3.7 Sonnet。
如果你在意速度和成本，选择 Gemini 2.5 Pro（免费且最快）。
如果你有预算限制，或需要 API 访问，选择 DeepSeek V3-0324（成本最低）。

总结：Claude 3.7 Sonnet 是最佳选择吗？

在这次测试中，Claude 3.7 Sonnet 无疑是代码质量最好的模型，它在技术理解和设计美感上的表现超越了其他对手，提供了完整的用户体验——包括用户推荐、功能介绍、SEO 优化文本，以及一个真正可用的落地页。

但与此同时，DeepSeek V3-0324 的出色表现也表明，开源模型的差距正在迅速缩小。

当然，这篇文章只是我的主观评价。你是否同意 Claude 3.7 Sonnet 的表现？你觉得哪个模型的结果最合理？欢迎在评论区讨论！

https://medium.com/codex/i-tested-out-all-of-the-best-language-models-for-frontend-development-one-model-stood-out-f180b9c12bc1

（文：PyTorch研习社）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30