还在手搓Prompt?也太out了吧!这套Prompt手法包教包会

大家好,这里是沃垠AI,我们真不读沃根(gēn)AI,也不是夭艮AI。

沃垠,取自ALL IN AI的谐音,指AI的世界沃野千里、一望无垠。我们希望能够与你一起,探索AGI的无限可能,All blog for you.

最近,去了趟厦门,参加火山方舟开发者Meetup。才知道,真有不少朋友把我们读做wò gēn的,我……

厦门一行,见了很多佬,交了很多友,也学了很多新知识。

其中,最让我感受深刻的是,火山方舟现场发布的「PromptPilot」。

简单说,这是一个Prompt开发神器。

“Prompt?谁不会写,谁不会调试,还要这个PromptPilot干什么?”我知道你可能有这样的疑惑。在没有接触这款产品前,说实话我也有这样的疑惑。

在深度体验了PromptPilot后,我觉得,我们真的把Prompt想简单了。

过去,我们写Prompt,主要靠手搓+AI优化,然后人工roll case来迭代,费时又费力。而这个PromptPilot,可以帮我们快速拉起从提示词生成到调试、优化、评估和管理的全流程,非常的高效且高质量。

特别适合AI Agent、AI应用的系统提示词设计。


保姆级实操教程

接下来,是实操指导。借用句藏师傅的标题,本教程包会,不会退网。

0)前置工作

首先打开网站:https://promptpilot.volcengine.com

点击左下角“登录/注册”,登录账户。

登录后,订阅PromptPilot,建议选择Plus版,可以一直白嫖到9月11号。

我们先来认识下PromptPilot的整体界面。

左侧边栏,分别是项目管理、Prompt生成、Prompt调试(单case和批量case)、API接入、知识库接入。

中间chat区,输入你的提示词需求。

比如,我们输入:“让LLM扮演《黑神话:悟空》里的天命人角色,和用户对话。”

它就会在右侧生成初版Prompt,你可以直接复制使用,也可以继续优化,以及验证Prompt。

做完了前置工作,接下来我们以一个实际工作中的例子,来给大家展示完整的PromptPilot使用流程。

1)生成Prompt

比如传统工业,车间质检巡检一直是一个非常重要且高频的工作场景,现在能不能让LLM帮我们做自检?

我的需求是:

为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

# 参考描述
为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。

把这段需求发给PromptPilot,在右侧会得到一个初版提示词,有图片变量,也有输出要求(思考、判断和违规类比)

2)优化Prompt

通常,车间图片是一个URL,我们需要调整这部分变量,于是选中这部分文字,点击“优化”。

输入优化意见“变量名字必须是image_url”,再点击确认。

就会得到一个新的Prompt。

你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具(这里主要指安全帽)的情况,并给出违规类别。
请仔细查看以下生产车间的图片:
<生产车间图片>
{{image_url}}
</生产车间图片>
在判断时,请仔细观察图片中的每一个细节,查看是否有工人违规操作设备(如未按操作流程使用设备、在设备运行时进行危险行为等),以及是否有工人未佩戴安全帽。
首先,在<思考>标签中详细分析你的判断依据,包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断,使用"存在违规""未发现违规"。最后,在<违规类别>标签中详细列出具体的违规类别,如果存在多项违规,应一一列举;若未发现违规,则填写"无"
<思考>
[在此详细说明你对图片的分析过程]
</思考>
<判断>
[在此给出"存在违规""未发现违规"的判断]
</判断>
<违规类别>
[在此列出具体的违规类别]
</违规类别>
请确保你的判断客观公正,且基于图片中的实际情况。

3)调试Prompt

好,接下来我们就可以对Prompt进行调试了。

调试有分单case调试和批量case调试,分别有文本、视觉和多轮对话三种类型。

点击顶部的“+”号,新建调试任务,这时会出现2种模式让你选择:评分模式和GSB比较模式。

很好理解,一个是对回答进行打分来评判,一个是比较A、B两种回答来评判。

因为我们的任务是视觉理解,所以需要选择“视觉理解”类型。

回到Step2,我们把得到的提示词复制到“调试Prompt”栏里。同时,给本次任务取一个名字,方便后面查看和对比版本。

接下来,我们要验证这个Prompt,需要填写图片变量。点击{{image_url}}旁边的图片按钮,选择“URL上传”。

比如,我们在网上随便找了一张图片,复制图片URL,填写进去。

右上角,选择一下模型,建议选择doubao-seed-1.6-thinking,有多模态和推理能力。也可以自己接外部模型,比如Step3、Intern-S1、o3等。

Prompt、变量、模型都确认完后,点击“保存并生成模型回答”。

会得到一个模型回答。可以看到,模型判断准确,施工人员未违规。

就是这思考过程复杂了点,我们可以点“基于模型回答改写”。

输入要求“简化思考过程”,优化后的思考过程,果然简洁了许多。

然后,将这次调试结果添加到评测集中。

点击“Prompt批量”-“视觉理解”,就可以看到刚才添加的评测数据了。

你可以对这条评测集进行评分,建议采用二分制,满意就是5分,不满意就是1分,不要填3-4的中间分,而且最好是正负样本都有评分,这样模型才能更好的判断。

4)多case调试

这只是一个单case调试。很多时候,我们需要大量的评测集对提示词进行批量评测,这样才能调试出最优的Prompt。

这时,你可以选择手动添加行数据,也可以选择批量上传数据集。

比如我上传已经准备好的数据集,点击“播放”按钮,就会生成模型回答,并评分。

这样就得到了批量的评测数据集,有理想回答,有模型回答,也有评分。

5)智能优化Prompt

有了评测数据集,接下来就可以对Prompt进行系统优化了。

点击右上角“智能优化”,一键优化更优的Prompt。

因为这回数据集增加了许多,所以Prompt优化要点时间,我们耐心等待一下。

大概10来分钟左右,一个深度优化后的Prompt就出来了。可以看到,优化后的版本比第一版要好了很多。

也可以看优化报告,看看PromptPilot到底在哪些地方进行了优化,

最终版的Prompt如下:

你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具(这里主要指安全帽)的情况,并给出违规类别。

请仔细查看以下生产车间的图片:
<生产车间图片>
{{image_url}}
</生产车间图片>

在判断时,请仔细观察图片中的每一个细节,查看是否有工人违规操作设备(如未按操作流程使用设备、在设备运行时进行危险行为、设备使用环境是否符合规范(如设备周围是否杂乱无章影响操作等)、是否正确使用设备的安全防护功能等,例如是否存在单手不稳操作、身体过度前倾等危险姿势,尤其注意设备是否处于危险状态运行),以及是否有工人未佩戴安全帽。

首先,在<思考>标签中详细分析你的判断依据,包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断,使用"存在违规""未发现违规"。最后,在<违规类别>标签中详细列出具体的违规类别,如果存在多项违规,应一一列举;若未发现违规,则填写"无"

请确保你的判断客观公正,且基于图片中的实际情况。

理论上,你还可以重复2-5的步骤。数据集越多,优化后的Prompt越好。

有了PromptPilot,提示词从生成、调试、优化到管理,变得更加的容易和可控,再也不是那个“开局全靠roll”的时代了。

尤其是在搞AI Agent或AI应用开发的朋友,强烈推荐去试试这个神器。

另外,PromptPilot还支持知识库和外接模型。比如,它的自定义模型还支持“其他”,别提有多爽了,你懂的。


其他产品

当然,这次火山发布的神器,可不止PromptPilot这一款。

囿于篇幅,下面我给大家摘重点介绍一些。

1)豆包大模型1.6升级

这次,豆包大模型1.6主要升级了3个版本,分别是think、flash和embedding。如果在API里调用,那个带有“250715”后缀的,就是升级版的模型。

特别给大家介绍一下Seed-1.6-embedding,这是一个全模态向量化模型,首次引入了视频向量化能力,在多个榜单中达到SOTA效果,特别擅长图文、视频的检索与理解。

2)豆包同声传译2.0模型

这个模型,我当天就发了朋友圈,很多人讨论。

主要亮点是低延迟+音色复刻。延迟大概在2s左右,甚至比人类同传译员还要快,而且是原作者的音色复刻,没有任何的机械感。

字节Seed团队,在Audio这块是真的强。

3)Responses API

我们知道,Agent能力的实质其实是Context,即上下文。火山方舟这个Responses API,具备原生的上下文管理,能自主完成工具选择、调用和请求模型的闭环,更快更省。

简单理解,Responses API就是来帮你省钱的。构建Agent,用这一个API就够了。

4)AI知识管理

AI知识管理是字节新发布的文件问答助手,你可以把它理解为类似NotebookLM这样的产品,支持各种多模态内容的理解和处理。

体验地址:

https://aisearch.volcengine.com

当天现场还有一个彩蛋,火山方舟把各个讲师的PDF、产品介绍和开发者Meetup资料都上传到了AI知识管理里,你可以点击“探索知识”,体验试试。

文件地址:

https://aisearch.volcengine.com/share/448b65a1

5)VIikingDB

一款由字节自研的向量数据库,抖音的推荐系统、Coze的知识库都是由VIikingDB支持的,RAG能力非常出色。

6)方舟协作计划

最后,是一个福利环节。

一直到11月底,在火山方舟里接入大模型,个人用户可以获得50万tokens的赠送,企业用户可以获得500万tokens的赠送,每个模型都可以享有。

如果你同意将调用数据给方舟团队优化模型,还有tokens返还。

感兴趣的朋友,可以前往火山后台体验。

火山后台:

https://console.volcengine.com/home



写在最后

火山引擎,一直是我用得最多的AI云服务平台。

不是说我去了趟厦门,我才这样说,而是他们真的很在意开发者。在开发者Meetup现场,50多名开发者提了超级多的建议,他们照单全收,列list进行改进。

比如PromptPilot,其实上线有一段时间了,刚开始并不支持自接模型,有开发者提了意见,他们迅速改进,现在不仅支持国内模型,还直接支持海外模型。

在服务、稳定性、速度和价格这块,火山引擎一直都很靠谱。

这次去厦门,还见到一位00后开发者,据说他通过AI Coding做的产品,在淘宝上每月稳定收入大几千,于是干脆辞职,All in AI。

这真是一个美好的时代。台子已经搭好,剩下就等你入场了。

勇敢去造吧,我的朋友。

(文:沃垠AI)

发表评论