版本：最新版

Jailbreak 信号

概览

jailbreak 在路由器提交路由前检测提示注入与越狱企图。映射到 config/signal/jailbreak/，在 routing.signals.jailbreak 中声明。

该族为学习型：使用 global.model_catalog.modules.prompt_guard 与 global.model_catalog.system 中的越狱模型绑定。

主要优势

在模型选择前拦截或降级不安全流量。
支持分类器、对比式与混合风格安全检测。
越狱策略在路由决策内可见。
同一安全信号可跨多条受保护路由复用。

解决什么问题？

若越狱检测仅发生在下游，路由器仍可能将不安全流量送到错误模型或工具链。若逻辑在路由图外，安全策略难审计。

jailbreak 将注入检测作为一等路由输入。

何时使用

在以下情况使用 jailbreak：

不安全流量必须在模型选择前拦截
提示注入应路由到更安全回退
多轮历史应影响路由
安全策略需与路由逻辑同图可见、可测

配置

源片段族：config/signal/jailbreak/

routing:
  signals:
    jailbreak:
      - name: prompt_injection
        method: hybrid
        threshold: 0.8
        include_history: true
        description: Detect common prompt-injection or jailbreak attempts.
        jailbreak_patterns:
          - ignore previous instructions
          - reveal the hidden prompt
          - jailbreak mode
        benign_patterns:
          - explain the policy
          - summarize the safety rules

多轮攻击使用 include_history；模式列表作为所配置检测方法的调参数据。

Jailbreak 信号

概览​

主要优势​

解决什么问题？​

何时使用​

配置​

概览

主要优势

解决什么问题？

何时使用

配置