Reprompte 团队说明： 本指南基于我们在 2026 年前四个月对 GPT-5 在编程、分析与写作任务上的内部评测。每条建议都经过与 GPT-4 Turbo 及更早的 OpenAI 推理模型的并列对照验证。

GPT-5 不只是更大的 GPT-4

GPT-5 带来的 prompt 表面与前代模型有根本性差异。最大的变化是它内置的「推理路由器」——模型自身决定一个问题是否值得逐步谨慎推理还是给出直接回答，并据此调整算力预算。这意味着许多定义 GPT-4 时代的 prompt 技巧，如今要么是冗余，要么是反作用。

本指南是我们团队在 2026 年前四个月围绕 GPT-5 整理出来的实战手册。我们关注的是：哪些变了、哪些没变，以及哪些具体模式能稳定地从新模型里榨出最多价值。如果你把 GPT-5 当成一个「稍微聪明一点的 GPT-4」来用，那你大概率把 20% 到 30% 的能力留在了桌上。

不要再手动触发 Chain-of-Thought

「让我们一步一步思考」是 GPT-3.5 与 GPT-4 时代最具影响力的 prompt 工程语句。在 GPT-5 上，这句话坦白说已经退役了。模型本身有推理路由器，能判断哪些问题需要展开思考；当路由器没有选择展开时，强行触发 chain-of-thought 只会增加延迟和成本，却不会提升准确率。

真正对 GPT-5 有帮助的，是把问题难度的信号传给路由器，让它做出更好的选择。「这是一个非平凡的推理问题」「请小心，这里有一个微妙的陷阱」这类表达，引导模型走入更深推理路径的能力，比「让我们一步一步思考」更可靠。心智模型变了：你不再「手动调用」推理，而是「给 GPT-5 它自行调用推理所需的信息」。

如果你确实需要无视模型自身判断、强制展开推理——例如评测台架或基准测试——请使用 API 中的 reasoning effort 参数，而不是在 prompt 层面写指令。前者既更可靠，也更高效。

利用指令层级

GPT-5 实施了严格的指令层级：system 消息高于 developer 消息，高于 user 消息，高于工具输出。这不是约定俗成，而是模型层面强制执行的。一旦你理解这一点，就能显著降低 prompt 注入风险，并在生产环境中得到更稳定的行为。

把不可妥协的规则放进 system 消息。输出格式、拒绝策略、persona 约束、安全规则，都属于这一层。user 消息可以覆盖风格偏好与语气，但无法覆盖 system 消息——GPT-5 对这个顺序遵守得非常严格。我们已经把整套防注入逻辑迁移到结构良好的 system 消息中，并观察到「越狱式失败」明显下降。

一个微妙的推论：不要把用户的输入数据放进 system 消息，即使这部分是静态的。任何不可信内容，哪怕从不变化，都应该处于信任线之下。否则一旦攻击者找到办法影响这部分「静态」内容（供应商修改了一段描述、CMS 上的一次编辑），他就拿到了 system 级别的权限。

GPT-5 喜欢你简洁

反直觉的是，GPT-5 对简洁 prompt 的反应优于对冗长 prompt。我们用 50 个生产级 prompt 在三种长度上做了测试——简短、中等、冗长——简短版本在 50 次对决中赢下 31 次。模型本身擅长补全空隙；额外的上下文反而经常引入它需要再去消解的冲突。

有效的模式是：2~3 句任务描述 + 输入数据 + 明确的输出格式说明。超出这部分的内容，必须为自己的存在做出说明。示例可以加分，约束可以加分。装饰性表达——「请」「劳烦」「我会很感激」——则不行，并且常常把模型推向过度礼貌、犹疑闪避的回答。

把输出格式说明放最后

对任何 GPT-5 prompt 你能做出的最稳定的改进之一，就是把输出格式说明挪到 prompt 的最末尾。模型对最后看到的指令赋予不成比例的权重，尤其在生成结构化输出时更明显。一个开头写着「请返回包含以下字段的 JSON……」、然后才描述任务的 prompt，明显不如把 JSON 说明移到末尾的同一个 prompt 稳定。

对于结构化输出，我们现在的默认做法是使用 OpenAI 的 response_format + JSON schema，而不是用文字描述 schema。受约束解码路径的可靠性显著高于文字说明，即便文字写得很精确。只有在你无法使用 API 这一特性时（例如通过 ChatGPT 或不暴露该参数的封装层工作），才使用文字 schema。

什么时候在 GPT-5 上用示例

GPT-5 需要的示例比 GPT-4 少。多数任务上，zero-shot 已经够用，再加一个示例就能搞定剩下的部分。仍然能从 few-shot 中真正受益的有两类情况：

非主流的输出格式。如果你的输出格式不是标准格式（自定义 CSV、特定 markdown 风格、遗留模板），示例能锁定模型。一个示例通常足够。三个就过头。

声音与语气。如果你想要一个特定的写作声音——品牌声音、特定作者风格、行业话术——示例胜过描述。「以 X 的声音写作」并不可靠。给出两段那种声音的段落，然后让 GPT-5 续写同样的风格，几乎万无一失。

除上述两种情况外，示例多半是噪声。它们消耗上下文，有时还会诱导模型去模仿表层特征而非学习底层任务，并且很少在 GPT-5 已经具备的核心能力上提升质量。

默认的工具调用行为不同

GPT-5 的工具调用行为比 GPT-4 主动得多。默认情况下，只要它有任何不确定，就会调用工具，有时多于必要。如果你发现工具调用次数比 GPT-4 时代意外地高，这不是 bug，而是新的默认。

你可以通过显式指引来调节。「只有在你无法依靠自身知识回答时，才调用搜索工具」会减少不必要的调用。「在陈述任何关于客户账户的事实之前，始终调用验证工具」会在需要的地方增加调用。模型对这类指令非常敏感——比 GPT-4 敏感得多。

对于循环型 agent，GPT-5 的停止行为也不同。它倾向于比 GPT-4 更早宣布完成，有时早得过分。在系统 prompt 末尾加上一句「在你声明已完成之前，请列出已完成的步骤，并逐项与原始任务进行核对」，多数过早停止的问题都能被修掉。

明智地使用推理内容

当推理内容在 API 中被暴露出来时，你可以做一些有意思的事——把推理片段反喂到第二个 prompt、把它总结进 debug 日志、提取中间决策。但永远不要把推理内容当作生产环境正常回答的一部分。推理轨迹并不是为人类读者优化的，把它直接展示给用户会破坏 GPT-5 努力呈现的整洁输出。

对于审计与可观测性，把推理内容与回复一起存进日志。对于希望对模型中间状态拿到更强信号的多步流水线，可以让模型在可见回复里另行输出一段结构化的「决策日志」——与推理轨迹分开，使用你自己控制的格式。

视觉与音频输入

GPT-5 的多模态处理明显优于 GPT-4，但图像和音频的 prompt 规则常被忽视。对图像：先放图，再放文字问题。反过来——文字在前、图像在后——OCR 与细节识别明显更差。对音频：明确说明你想要的是转写、摘要还是分析。模型默认给摘要，而你上传音频时通常并不想要摘要。

对于内容混合的文档（含图表的 PDF、含示意图的幻灯片），先描述你想分析的内容再上传：「我会附上一份 10 页的报告，请提取第 4 页的财务表与第 7 页的方法论段落。」在输入之前先点明目标，模型能更高效地分配注意力。

为 GPT-5 构建评测集

因为 GPT-5 的行为高度依赖其内部推理路由器，prompt 工程现在更像 evaluation 工程。改进 prompt 最快的方式，是维护一份固定的小评测集——20 到 50 个覆盖真实分布的样本——并在每次改 prompt 后跑一遍。我们已经不再相信「凭直觉判断 prompt 是否变好」这种说法。

评测不必复杂。pass/fail 标签、一些评分项、偶尔几个标准答案——就够了。重要的是「测量」这件事本身的纪律性。在 2026 年采纳了这个习惯的团队，能信心十足地推进 prompt 变更；没有的团队还在为「新 prompt 到底是不是改进」吵架。

GPT-5 的心智模型

给 GPT-5 写 prompt 最短的心智模型是：把它当作一位思虑周密的初级同事，他可以随时呼叫一位高级顾问。清楚地告诉他你需要什么、什么是「好的产出」。相信他在任务困难时会去求助（他自己的推理路由器）。不要事无巨细地干涉他的思考过程。不要太纠结礼貌用语。仅在格式特殊或声音重要时给出示例。

GPT-4 时代的多数手册在 GPT-5 上仍然有效——它们只是不再是杠杆最高的动作。新的高杠杆动作是：更干净的 system 消息、简洁、把格式说明放在 prompt 末尾，以及一份你真的会跑的小评测集。把这四个习惯落地，你的 GPT-5 输出就会胜过那些还在调试 chain-of-thought 措辞的同行。

想要一份不用从零写起的 GPT-5 prompt？

我们的免费 AI Prompt 生成器能把粗糙的想法转换为遵循指令层级、贴合 2026 年最佳实践的 GPT-5 就绪 prompt。

立即生成一份 GPT-5 prompt

2026 年的 GPT-5 Prompt：推理、层级与该停下来的事