使用 vLLM AIBrix 安装
本指南提供了集成 vLLM AIBrix 的分步说明。
关于 vLLM AIBrix
vLLM AIBrix 是一个开源项目,旨在提供构建可扩展 GenAI 推理基础设施的基本构建块。AIBrix 提供了一个云原生解决方案,专为部署、管理和扩展大语言模型(LLM)推理而优化,专门针对企业需求量身定制。
主要功能
- 高密度 LoRA 管理:简化对模型轻量级低秩适配的支持
- LLM 网关和路由:高效管理和引导跨多个模型和副本的流量
- LLM 应用定制自动扩缩器:根据实时需求动态扩展推理资源
- 统一 AI 运行时:多功能边车,支持指标标准化、模型下载和管理
- 分布式推理:可扩展架构,处理跨多节点的大型工作负载
- 分布式 KV 缓存:支持高容量、跨引擎 KV 重用
- 经济高效的异构服务:支持混合 GPU 推理以降低成本,同时保证 SLO
- GPU 硬件故障检测:主动检测 GPU 硬件问题