我要投稿

别再只知道“请帮我写…”了，看看谷歌如何解构 Prompt Engineering (全是干货)

发布日期：2025-04-10 22:59:05 浏览次数： 1807

作者：草台AI

微信搜一搜，关注“草台AI”

别再只知道“请帮我写…”了，看看谷歌如何解构 Prompt Engineering (全是干货)

网上充斥着各种 Prompt “最佳实践”指南，很多都流于表面。你可能已经看过不少，感觉就像食谱一样，告诉你加几勺这个、几勺那个。但今天，我们来点硬核的，看看搜索巨头谷歌内部是如何系统性地理解和实践 Prompt Engineering 的。这份来自 Google 的白皮书，扒开了 Prompt Engineering 的外壳，直指核心。准备好，这篇东西值得你收藏和反复琢磨。

为什么 Prompt Engineering 这么重要？

首先，得明白 LLM（大语言模型）到底是个啥。别被那些花哨的术语迷惑，它的本质是一个预测引擎。你给它一段文本，它就根据自己“见过”的海量数据，预测下一个最可能出现的词（或者说 token）是什么。它不断重复这个过程，把预测出来的词加到输入后面，继续预测下一个。

你写的 Prompt，就是在给这个预测引擎设定初始状态，引导它走向你期望的预测序列。这就像给一个极其聪明但缺乏具体目标的学徒布置任务。你说得越清楚、越巧妙，他完成得就越好。反之，模糊不清的指令只会得到平庸甚至错误的结果。

所以，Prompt Engineering 不是什么魔法，它是一门手艺，关乎如何精确、高效地引导这个预测引擎产出我们想要的东西。人人都能写 Prompt，就像人人都能写几行代码，但要写出好 Prompt，写出能稳定解决问题的 Prompt，就需要理解其背后的机制并掌握一些技巧。

控制 LLM 输出：那些你需要知道的“旋钮”

直接和模型 API 或 Vertex AI 这样的平台打交道（而不是简单的聊天机器人），你会发现可以调整很多参数。这些参数就像是你控制 LLM 输出行为的旋钮：

输出长度 (Max Tokens):
这决定了模型最多生成多少内容。注意，它不是让模型变得更简洁，而是到字数上限就强行停止。设太短可能话没说完，设太长又可能增加成本和响应时间，甚至导致模型在完成任务后继续输出无意义的“填充词”。
温度 (Temperature):
控制输出的随机性。低 T 值（比如接近 0），模型倾向于选择最可能的词，输出更稳定、确定，适合需要事实性、固定答案的任务。高 T 值（比如接近 1），模型会考虑更多可能性，输出更多样、更“创意”，但也可能更离谱。T 值过高或过低都可能导致“重复循环”的 bug。
Top-K & Top-P:
这俩都是用来限制模型从概率最高的词中进行选择。Top-K 是只考虑概率排名前 K 的词。Top-P (Nucleus Sampling) 则是选择累积概率达到 P 的那些词。它们都能调整输出的多样性和随机性。通常你可以一起用，比如先按 Top-K 和 Top-P 筛选候选词，再用 Temperature 从中采样。

关键在于，这些参数是相互影响的。极端设置一个参数可能会让其他参数失效（比如 Temperature=0 时，Top-K/P 就无关紧要了）。没有万能的设置，你需要根据具体任务去实验和调整。想让结果稳定？试试低 T。想要创意？调高 T、K、P。

核心 Prompting 技术：从入门到进阶的“招式”

理解了基本原理和参数，接下来就是具体的 Prompting 技术了。这部分是真正的干货，掌握它们能显著提升你与 LLM 的协作效率：

零样本 (Zero-shot):
最简单直接的方式，直接描述任务或提问，不给任何范例。比如：“把这篇影评分类为正面、中性或负面：[影评文本]”。对于简单任务或能力强的模型有时足够了。
少样本 (Few-shot / One-shot):
这是提升效果的关键一招。给 LLM 一到几个示例，展示你期望的输入输出格式或模式。就像教小孩一样，光说不如做给他看。模型会模仿你的例子来完成任务。例子质量要高、要多样，甚至要考虑边缘情况。
角色/系统/上下文提示 (Role/System/Contextual Prompting):

角色提示 (Role Prompting):
让 LLM 扮演一个特定角色，比如“你现在是一位经验丰富的 Python 程序员”或“像一个 5 岁小孩解释黑洞”。这能有效设定输出的语气、风格和知识范围。
系统提示 (System Prompting):
给出更明确的指令或规则，比如“回答必须是 JSON 格式”、“语言风格要幽默”、“回答要尊重他人”。
上下文提示 (Contextual Prompting):
提供与当前任务相关的背景信息。比如在生成文章建议时，先告诉它“你在为 Niche 网站写关于 80 年代复古街机游戏的文章”。
这三者经常结合使用，共同精确地指导模型。

思维链 (Chain of Thought, CoT):
这是让 LLM 处理复杂推理任务的利器。与其直接要答案，不如让它“一步一步地思考”（"Let's think step-by-step"）。LLM 会先输出推理过程，再给出最终答案。这对于数学题、逻辑题等特别有效，能显著提高准确性。结合 Few-shot CoT 效果更佳。
自洽性 (Self-consistency):
CoT 的进阶版。对同一个问题，使用较高的 Temperature 生成多个不同的 CoT 推理路径，然后看哪个最终答案出现次数最多，就选哪个。类似“集体投票”，用多次采样来提升结果的稳定性和准确性，尤其是在推理路径不唯一的情况下。
退一步提示 (Step-back Prompting):
遇到复杂问题时，先不直接问，而是让 LLM 先思考一个与问题相关的、更泛化或更高层次的问题/原则，然后再把这个“退一步”得出的见解作为上下文，去解决原始的具体问题。这能激活模型更深层的知识，提升回答的洞察力。
ReAct (Reason & Act):
让 LLM 不仅能思考，还能“行动”。这里的“行动”通常指调用外部工具，比如进行网络搜索、运行代码解释器等。LLM 会生成思考过程和下一步要执行的动作（如搜索某个关键词），执行动作后得到观察结果，再基于观察结果继续思考和行动，形成一个“思考-行动-观察”的循环，直到解决问题。这是构建更强大 Agent 的基础。
代码提示 (Code Prompting):
LLM 在编程方面也是一把好手。你可以让它：

写代码:
“写一个 Python 脚本，读取文件夹下所有 .txt 文件，并在每个文件开头加上‘DRAFT_’前缀。”
解释代码:
“解释一下这段 Bash 脚本是做什么的？”
翻译代码:
“把这个 Bash 脚本翻译成 Python 代码。”
调试和审查代码:
“这段 Python 代码报错了 [错误信息]，帮我看看哪里错了，并给出修改建议。”

成为 Prompt 高手的最佳实践 (浓缩版)

看了这么多技术，感觉信息量很大？别担心，记住以下几条核心原则，并在实践中不断运用和体会：

示例为王 (Provide Examples):
少样本提示通常比零样本效果好得多。清晰的例子是最好的老师。
简洁清晰 (Design with Simplicity):
Prompt 语言要直接、明确，避免歧义和不必要的复杂性。如果你自己都觉得绕，LLM 很可能也会。多用动词明确指示。
具体化输出要求 (Be Specific):
不要只说“写个博客”，要说“写一个三段的博客，关于排名前 5 的游戏主机，风格要信息丰富且吸引人”。明确长度、格式、风格、内容要点。
指令优于约束 (Instructions over Constraints):
尽量告诉模型“要做什么”，而不是“不要做什么”。正面指令通常比一堆负面约束更有效、更灵活。当然，安全和固定格式约束有时是必要的。
控制输出格式 (Output Formats):
对于提取信息、分类、排序等任务，要求输出 JSON 或 XML 等结构化格式通常更稳定、更可靠，还能减少幻觉。注意处理可能的 JSON 截断问题。输入也可以用 Schema 规范化。
迭代与文档化 (Iterate & Document):
Prompt Engineering 是一个实验科学。你需要不断尝试、调整、评估结果。最最重要的一点：详细记录你的每次尝试（用了哪个模型、什么参数、完整 Prompt、输出结果、效果评估）。这不仅是为了方便回顾和调试，也是在不同模型版本间保持效果稳定的关键。推荐使用表格记录。