跳到主要内容
Documentation

Jailbreak 信号

概览

版本:最新版

Jailbreak 信号

概览

jailbreak 在路由器提交路由前检测提示注入与越狱企图。映射到 config/signal/jailbreak/,在 routing.signals.jailbreak 中声明。

该族为学习型:使用 global.model_catalog.modules.prompt_guardglobal.model_catalog.system 中的越狱模型绑定。

主要优势

  • 在模型选择前拦截或降级不安全流量。
  • 支持分类器、对比式与混合风格安全检测。
  • 越狱策略在路由决策内可见。
  • 同一安全信号可跨多条受保护路由复用。

解决什么问题?

若越狱检测仅发生在下游,路由器仍可能将不安全流量送到错误模型或工具链。若逻辑在路由图外,安全策略难审计。

jailbreak 将注入检测作为一等路由输入。

何时使用

在以下情况使用 jailbreak

  • 不安全流量必须在模型选择前拦截
  • 提示注入应路由到更安全回退
  • 多轮历史应影响路由
  • 安全策略需与路由逻辑同图可见、可测

配置

源片段族:config/signal/jailbreak/

routing:
signals:
jailbreak:
- name: prompt_injection
method: hybrid
threshold: 0.8
include_history: true
description: Detect common prompt-injection or jailbreak attempts.
jailbreak_patterns:
- ignore previous instructions
- reveal the hidden prompt
- jailbreak mode
benign_patterns:
- explain the policy
- summarize the safety rules

多轮攻击使用 include_history;模式列表作为所配置检测方法的调参数据。