顶尖大模型PK日新月异,AI编码模型王座又易主了。
今天,谷歌DeepMind研究部门推出了Gemini 2.5 Pro Preview(I/O版),这是其3月份发布的Gemini 2.5 Pro多模态大型语言模型的最新迭代版本。
DeepMind首席执行官Demis Hassabis发帖称该模型为“迄今构建的最好的编码模型!”这次升级带来了更强大的编码功能,旨在让开发者们在今年的Google I/O大会之前就能开始使用。
目前,该模型在LMArena的编码排行榜上目前排名第一,在WebDev Arena排行榜上也位居第一,尤其擅长构建交互式Web应用。
此外,Gemini 2.5 Pro的现有用户将自动升级到更新后的版本,价格方面,Pro版目前每百万个tokens的输入/输出费用为1.25美元/10美元(上下文长度为20万个令牌),而Claude 3.7 Sonnet的费用则为3 美元/15美元。
领先模型加性价比的打法,让谷歌在头部大模型之战中逐渐占据上风,也激发了新一轮AI代码市场竞赛。
Gemini 2.5 Pro本身具备多模态推理能力,加上DeepMind开发团队对代码的深刻理解,使其成为开发者们的得力帮手。
谷歌介绍了新版本模型在视觉AI代码生成方面的全新应用方式,通过单一提示即可构建完整的、交互式的Web应用程序或模拟。
例如,视频转代码,Gemini 2.5 Pro在VideoMME视频基准测试中得分达到84.8%,将这一能力与编码技术相结合,实现了以往版本所无法达成的全新工作流程,只需要手工画个草图,模型就能实现相应的程序功能。
Gemini 2.5 Pro针对前端网页开发优化下了很多功夫。以前实现新功能意味着开发人员要手动查看设计文件,并检查各个组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写准确复制这些视觉属性所需的CSS代码。
现在,在集成开发环境(IDE)中使用Gemini 2.5 Pro,会让一项新功能程序的生成变得非常简单,例如以Gemini 95入门应用程序风格添加一个视频播放器功能。
有视觉加持的AI代码生成进一步提高了实用性,在网友的一波评测中表现出色。
例如有开发者想要创建一个跳跃类游戏,仅用文字很难描述清楚游戏的样子,这时候可以附上一张参考图片,Gemini 2.5 Pro就能根据图片效果进行代码生成了。
亦或是能根据一张画在纸上的草图,就能生成可交互的3D空间:
还有开发者让Gemini 2.5 Pro模型用傅里叶级数绘制自己的标志:
有自研TPU加持,谷歌在大模型领域的竞争开始占据主导地位,网友表示,很高兴看到谷歌掀起的新一轮市场竞争,与谷歌内部加速器相比,OpenAI、Anthropic等基于NVIDIA GPU的模型,在性价比方面几乎占不到优势。
除了PK性能刷榜,大模型最终还是要找到可落地的商业应用,顶尖大模型厂商在AI编码领域的竞争正在升级到全新高度。
日前,Anthropic被曝正和苹果联手打造一个全新的“氛围编码”平台,该平台将使用生成式人工智能为程序员编写、编辑和测试代码。
据彭博社报道,该系统可能是苹果编程软件Xcode的一个全新版本,将基于Anthropic的Claude Sonnet模型加持,在新版Gemini 2.5 pro推出之前的几个月里,Claude 3.7 Sonnet一直是业内开发者普遍认同的最佳AI代码生成模型,尤其是在第三方Cursor和Windsurf等氛围编码平台上非常受欢迎,赢下了不错的市场口碑。
Xcode作为苹果公司的独家集成开发环境(IDE),主要用于开发macOS和iOS应用程序,目前全球约有3400万注册开发者依赖Xcode和Swift语言为苹果设备开发各种App,或将进一步扩大Anthropic在开发者群体中的影响力。
而面对越来越激烈的竞争,有点陷入被动的OpenAI最近也在加速布局动作。
据彭博社援引知情人士消息称,OpenAI已同意以约30亿美元收购人工智能辅助编码工具Windsurf,以应对AI编码助手市场中激烈竞争,而这笔交易也将是OpenAI迄今为止对外投资规模最大的一次收购,可见其重视程度。
业内人士分析,OpenAI或通过Windsurf实现更加独立的全栈开发控制,重置在人工智能编程助手领域的竞争态势。
OpenAI的Codex目前为微软的GitHub CoPilot提供支持,而GitHub Copilot与微软的集成开发环境(IDE)深度整合,对手Anthropic则倾向于API调用,在集成开发环境方面缺乏吸引力。
收购Windsurf有望为OpenAI提供缺失的一环,即一个可与ChatGPT解耦、能灵活部署且可在源头进行微调的面向开发者的原生接口,据报道,Windsurf目前拥有超过80万开发者用户和1000家企业客户,不仅能进一步扩大市场份额,也能构建一种更加原生的开发者体验,减少对微软基础架构的依赖。
根据Verified Market Research的市场调查分析显示,2024年全球AI代码工具市场规模为49.1亿美元,预计到2032年将达到301亿美元,2025年至2032年的复合年增长率约为27.1%。
来自GitHub的报告显示,GitHub Copilot目前已被超过150万开发者使用,并为其支持的语言生成高达46%的代码,使用AI编码辅助的开发者完成拉取请求的速度比不使用AI辅助的开发者快15%。AI代码工具市场正在逐渐细分为Web开发、移动应用开发、游戏开发、企业应用以及数据科学与分析等不同赛道。
目前,北美正在主导全球AI代码工具市场,北美拥有大量的软件开发人员和顶尖人工智能专家,且在大模型领域处于领先状态。
亚太地区则是全球AI代码工具应用增长最快的地区,亚太地区占全球开发者总数的42.6%,约有1270万活跃开发者,其中仅中国和印度两国就拥有约760万开发者。
在国内市场,试图分一杯羹的大厂和独角兽们也都在纷纷行动,例如腾讯云AI代码助手CodeBuddy、阿里的通义灵码、百度的文心快码Comate、华为的CodeArts Snap、字节跳动的Trae、科大讯飞的iFlyCode、智谱AI的CodeGeeX等等正在展开激烈竞逐,但缺少顶尖大模型支撑的国内AI代码助手想要在国际市场形成竞争力仍然挑战巨大。
在可预见的未来,LLM和AI模型或将彻底改变软件开发业态,让开发人员乃至小白选手只需简单提示就能编写出专业程序员需要几分钟、几小时甚至几天才能完成的代码任务,有望激发意想不到的软件市场创新和商业潜能。
(文:头部科技)