提示注入(Prompt Injection)是一种针对大型语言模型等生成式AI系统的攻击手段。攻击者通过精心构造的输入文本,将恶意指令“注入”或“隐藏”在看似正常的用户提示中,旨在操控、误导或劫持AI模型的正常输出,使其执行非预期操作或泄露敏感信息。
可以将提示注入理解为一种针对AI的“社会工程学”攻击。大型语言模型的工作原理是根据接收到的所有文本(包括系统预设指令和用户输入)来预测并生成下一个最合理的词。系统开发者通常会预设一段“系统提示”,用以约束AI的行为边界(例如:“你是一个有帮助的助手”)。然而,当用户输入包含更强烈的、与系统提示相冲突的指令时,模型可能被“说服”或“欺骗”,优先执行用户输入中的隐藏指令,从而突破开发者设定的安全护栏。这好比在一封正常的信件中,用特殊墨水写下另一套秘密指令,而阅读者(AI)无法区分哪套指令才是真正应该遵循的。

与提示注入密切相关的概念包括:越狱、对抗性攻击、系统提示、AI安全以及红队测试。

若想深入了解提示注入的防御技术,可研究“提示工程”中的“指令分层”和“边界界定”方法。关注AI安全研究社区对“间接提示注入”和“多轮对话攻击”的前沿讨论,这些是当前更具挑战性的防御难题。理解提示注入也有助于更好地设计健壮的AI智能体应用框架。

