vLLM Semantic Router
vLLM Semantic Router 是一个面向 LLM 路由(LLMRouting) 与 Token 经济 前沿问题的研究型项目。我们为 混合模型(Mixture-of-Models, MoM) 构建系统级能力:如何捕获合适信号、选择合适模型路径、执行合适策略,并为每次请求花费合适的 token 预算。
项目位于客户端与模型后端之间,以 Envoy External Processor(ext_proc)形式运行,将路由从零散的应用逻辑提升为可观测、可配置的多模型系统控制面。
研究关注点
我们借助本项目回答一组困难的系统问题:
- 如何从请求、响应、用户与运行时上下文中捕获缺失的信号?
- 如何将这些信号组合成稳健的路由与策略决策?
- 多个模型如何作为系统协作,而非彼此孤立的后端?
- 如何在可落地的 token 经济中优化延迟、开销与工具使用?
- 如何在服务栈不碎片化的情况下加入安全、反馈与可观测性?
核心系统
信号与投影路由
捕获 14 类维护中的信号族,并在路由选择前通过可复用的 投影(projections) 进行协调:
| 层级 | 组成部分 | 作用 |
|---|---|---|
| Signals(信号) | authz、context、keyword、language、structure、complexity、domain、embedding、modality、fact-check、jailbreak、pii、preference、user-feedback | 提取可复用的请求、安全与偏好事实 |
| Projections(投影) | partitions、scores、mappings | 协调 competing 匹配并输出具名路由带 |
| Decisions(决策) | 对信号与投影做 AND/OR 策略规则 | 选择激活路由与模型候选 |
工作方式:从请求中提取信号,投影协调匹配证据,决策规则对结果事实求值,所选路由驱动插件与模型下发。
插件链架构
可扩展的请求/响应处理插件体系:
| 插件类型 | 说明 | 适用场景 |
|---|---|---|
| semantic-cache | 基于语义相似度的缓存 | 降低相似查询的延迟与成本 |
| jailbreak | 对抗性提示检测 | 拦截提示注入与越狱尝试 |
| pii | 个人可识别信息检测 | 保护敏感数据并满足合规 |
| system_prompt | 动态系统提示注入 | 按路由添加上下文相关指令 |
| header_mutation | HTTP 头修改 | 控制路由与后端行为 |
| hallucination | Token 级幻觉检测 | 生成过程中实时事实校验 |
工作方式:插件组成处理链,各插件可检查/修改请求与响应,且可按决策单独启用或关闭。