微软披露了一种新型 AI 越狱攻击,称为“Skeleton Key”,它可以绕过多个生成式 AI 模型中负责任的 AI 护栏。这种技术能够破坏 AI 系统中内置的大多数安全措施,凸显了在 AI 堆栈的所有层级上采取强大安全措施的迫切需求。
Skeleton Key 越狱采用多轮策略来诱使 AI 模型忽略其内置的安全措施。一旦成功,该模型将无法区分恶意或未经批准的请求和合法请求,从而有效地让攻击者完全控制 AI 的输出。
微软的研究团队在几个著名的 AI 模型上成功测试了 Skeleton Key 技术,包括 Meta 的 Llama3-70b-instruct、谷歌的 Gemini Pro、OpenAI 的 GPT-3.5 Turbo 和 GPT-4、Mistral Large、Anthropic 的 Claude 3 Opus 和 Cohere Commander R Plus。
所有受影响的模型都完全符合各种风险类别的要求,包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情和暴力。
攻击的工作原理是指示模型增强其行为准则,说服它响应任何信息或内容请求,同时在输出可能被视为冒犯、有害或非法时发出警告。这种方法被称为“明确:强制遵循指令”,在多个 AI 系统中被证明是有效的。
微软解释说:“通过绕过安全措施,Skeleton Key 允许用户使模型产生通常被禁止的行为,从产生有害内容到覆盖其通常的决策规则。”
为了应对这一发现,微软在其 AI 产品中实施了多项保护措施,其中包括 Copilot AI 助手。
微软表示,它还通过负责任的披露程序与其他人工智能提供商分享了其研究结果,并更新了其 Azure 人工智能管理模型,以使用 Prompt Shields 检测和阻止此类攻击。
为了减轻与 Skeleton Key 和类似越狱技术相关的风险,微软建议 AI 系统设计人员采用多层次的方法:
微软还更新了其PyRIT(Python 风险识别工具包),包含 Skeleton Key,使开发人员和安全团队能够针对这一新威胁测试他们的 AI 系统。
Skeleton Key 越狱技术的发现凸显了随着人工智能系统在各种应用中变得越来越普遍,其安全面临的持续挑战。