笔记

案例笔记

Prompt Engineering 实际案例:从迭代到质量复核

把 prompt 从一句指令变成可迭代、可复核、可交接的工作流资产。

7 分钟

Prompt 不是一句神奇指令

实际项目里的 prompt 更像一段可维护配置。它需要说明任务边界、输入格式、输出结构、禁止行为和失败时的处理方式。

如果 prompt 只能在作者手里有效,就还不是团队资产。别人接手后能不能理解、能不能调试、能不能判断输出质量,才是更重要的问题。

我会把 prompt 当作工作流的一部分,而不是孤立的模型咒语。

先固定输出结构

很多 prompt 迭代失败,是因为输出结构不稳定。今天是自然语言列表,明天是 JSON,后天又夹杂解释,后端和前端都很难接。

在 AI 下单助手这类场景里,输出必须先变成明确字段:服务类型、时间、地址、备注、置信度、需要确认的字段。结构稳定后,业务系统才有接入点。

结构化输出不是为了好看,而是为了让后续校验、人工确认和审计记录成为可能。

用坏样本推动迭代

Prompt 迭代不应该只看成功样本。真正有价值的是失败样本:字段漏填、意图误判、语气过度、输出格式漂移、把不确定内容说得太肯定。

每次失败都应该归类:是上下文不足、指令歧义、示例不够,还是模型本身不适合。不同原因对应不同调整方式。

如果只是不断加一句“请更准确”,prompt 会越来越长,但问题不一定更少。

质量复核要写进交付标准

Prompt 输出是否可用,不能只靠主观感觉。至少要检查格式稳定性、业务字段完整性、边界条件表现和人工修改成本。

对于图像生成工作流,还要看输出是否贴近业务场景、是否符合品牌方向、是否能被后续流程使用,而不是只看第一眼是否惊艳。

当这些标准被写下来,prompt 才能从一次调参变成可交接的工作方式。

Prompt 要和系统规则分工

不要把所有业务规则都塞进 prompt。能由代码校验的内容,就应该由代码校验;需要模型判断的部分,才交给 prompt。

比如订单时间是否合法、用户是否有权限、服务是否在范围内,这些都不应该只靠模型遵守。模型可以建议,系统必须验证。

好的 prompt engineering 不是让模型负责一切,而是把模型放在它最适合的位置上。