vLLM 大模型开发全栈学习指南

本指南面向具备 Python 基础和大模型核心概念（Transformer、Attention、Quantization）的开发人员，旨在帮助大家从零开始掌握 vLLM 框架，实现高性能推理服务的搭建、二次开发与深度调优，全程注重实操性与实用性，避免冗余的学术化表述，助力快速落地生产级 LLM 服务。

1. 核心原理解析 (Deep Dive)

vLLM 之所以能成为当前最主流的高性能 LLM 推理框架之一，核心在于其创新的架构设计，解决了传统推理中吞吐量低、内存利用率低的关键痛点。以下从开发者视角，通俗解析其核心技术原理。

1.1 PagedAttention 工作原理及优势

在传统 Attention 机制中，模型推理时会为每个请求分配一块连续的 GPU 内存，用于存储该请求的 Key（K）和 Value（V）张量（即 KV Cache）。这种方式存在两个致命问题：一是内存碎片化，当请求长度不一、生命周期不同时，会产生大量空闲的内存碎片，无法被有效利用；二是内存浪费，即使请求只需要少量内存，也需分配连续块，导致 GPU 内存利用率极低。

vLLM 提出的 PagedAttention（分页注意力）机制，借鉴了操作系统中的“内存分页”思想，彻底解决了上述问题，其核心逻辑如下：

将 KV Cache 分割成固定大小的“页”（Page），每个页的大小统一（如 16 个 Token），页是内存分配的最小单元；
为每个请求分配若干个页，用于存储其 KV Cache，这些页无需连续，可分散在 GPU 内存的不同位置；
通过“页表”（Page Table）记录每个请求的 KV Cache 对应的页位置，推理时通过页表快速索引、拼接所需的 KV 数据，不影响计算逻辑。

相比传统 Attention，PagedAttention 的核心优势的是：

内存利用率提升 3-5 倍：彻底消除内存碎片化，空闲页可被新请求复用，避免“大材小用”；
支持动态请求长度：无需提前预估请求长度，可灵活处理长短不一的推理任务（如对话、长文本生成）；
降低 OOM 概率：通过精细化内存分配，最大化利用 GPU 显存，减少因连续内存不足导致的模型加载失败。

1.2 Continuous Batching (迭代级调度) 提升吞吐量的原理

传统 LLM 推理采用“静态批处理”（Static Batching）：将多个请求打包成一个批次，一次性送入模型计算，直到所有请求都完成生成（即生成到最大长度或触发停止条件），才能处理下一批请求。这种方式的弊端很明显：不同请求的生成时间差异大（如有的请求生成 10 个 Token，有的生成 100 个 Token），批次中“快请求”会等待“慢请求”完成，导致 GPU 空闲时间长，吞吐量极低。

Continuous Batching（迭代级调度，也叫动态批处理） 打破了这种“批次绑定”的限制，核心逻辑是：以 Token 生成为迭代单位，而非以请求批次为单位，具体流程如下：

初始化一个请求队列，将待处理的请求放入队列；
每次迭代（生成一个 Token）时，从队列中选取尽可能多的请求（不超过 GPU 内存限制），组成一个临时批次，送入模型计算，生成每个请求的下一个 Token；
计算完成后，检查每个请求是否达到停止条件（如生成停止符、达到最大长度）：若达到，则将其移出队列，释放其占用的内存；若未达到，则保留在队列中，等待下一次迭代；
重复步骤 2-3，直到队列中所有请求都处理完成。

这种调度方式的核心优势是：GPU 始终在处理“可生成 Token 的请求”，没有空闲等待时间，尤其在多请求、长短不一的场景下，吞吐量可提升 10-100 倍（具体取决于请求分布），是 vLLM 高性能的核心保障之一。

1.3 vLLM 的内存管理模型

vLLM 的内存管理模型围绕“高效利用 GPU 显存”设计，分为三个核心部分，协同工作实现内存的精细化管控：

KV Cache 内存管理：基于 PagedAttention，将 KV Cache 分页管理，通过页表索引，实现内存的高效分配与复用，这是内存管理的核心；
模型权重内存管理：支持模型权重的分片存储（如张量并行 Tensor Parallelism），将模型权重分散到多个 GPU 上，突破单 GPU 显存限制；同时支持量化（如 FP8、AWQ），将权重从 FP16 压缩到更低精度，减少显存占用；
动态内存池：vLLM 会预先分配一块固定大小的 GPU 内存作为“内存池”，用于存储 KV Cache 页和临时计算数据，避免频繁的内存申请/释放（GPU 内存申请释放开销大），进一步提升性能；当内存池不足时，会自动淘汰长期未使用的 KV 页（基于 LRU 策略），保障新请求的正常处理。

简单总结：vLLM 的内存管理，本质是“分页复用 + 动态调度 + 量化压缩”，最大化利用每一寸 GPU 显存，同时降低内存操作开销。

2. 环境搭建与快速启动

本节提供两种主流的 vLLM 安装方案（Docker + Pip），区分 NVIDIA GPU（主流场景）和 AMD/TPU 硬件，同时提供可直接运行的“Hello World”和 API Server 示例，帮助快速上手。

2.1 安装方案（区分硬件）

vLLM 对 NVIDIA GPU 的支持最完善（依赖 CUDA），AMD/TPU 需依赖额外插件，以下分别说明。

2.1.1 NVIDIA GPU 安装（推荐）

前提条件：GPU 需支持 CUDA 11.8 及以上版本，建议 CUDA 12.1+（性能更优），已安装 NVIDIA 驱动。

方案 1：Pip 安装（简单快捷，适合开发调试）

# 安装基础版 vLLM（支持主流模型，如 Llama 3、Qwen）
pip install vllm

# 若需支持量化格式（AWQ、GPTQ），安装带扩展的版本
pip install vllm[awq,gptq]

# 验证安装（查看 vLLM 版本，确认 CUDA 可用）
python -c "from vllm import LLM; print('vLLM 版本:', LLM.__version__)"

方案 2：Docker 安装（推荐生产环境，避免环境冲突）

# 拉取官方镜像（已预装 CUDA、vLLM 及依赖）
docker pull vllm/vllm-openai:latest

# 启动容器（映射端口，挂载本地模型目录，分配 GPU）
# 说明：--gpus all 表示使用所有 GPU，-v 映射本地模型路径到容器内
docker run -it --gpus all -p 8000:8000 -v /path/to/your/models:/models vllm/vllm-openai:latest

2.1.2 AMD/TPU 安装（实验性支持）

vLLM 对 AMD GPU（依赖 ROCm）和 TPU 的支持处于实验阶段，功能不如 NVIDIA GPU 完善，适合尝鲜。

# AMD GPU（依赖 ROCm 5.6+）
pip install vllm[rocm]

# TPU（依赖 JAX 框架）
pip install vllm[tpu]

# 注意：AMD/TPU 目前不支持部分量化格式和高级特性，建议优先使用 NVIDIA GPU 用于生产

2.2 Hello World 示例（Python API 加载模型）

以加载开源模型 Llama 3-8B-Instruct 为例（也可替换为 Qwen-7B、ChatGLM4-7B 等），实现简单的文本生成，代码可直接运行。

from vllm import LLM, SamplingParams

# 1. 配置采样参数（控制生成效果，新手可直接使用默认值）
sampling_params = SamplingParams(
    temperature=0.7,  # 温度，越低生成越确定，越高越随机（0-1）
    top_p=0.9,        # 核采样，只从概率前 90% 的 Token 中选择，避免生成无意义内容
    max_tokens=100,   # 最大生成 Token 数，防止生成过长
    stop=["</s>"]    # 停止符，当生成到该 Token 时停止
)

# 2. 初始化 LLM 实例（加载模型）
# 说明：model 可填 Hugging Face 模型名（自动下载）或本地模型路径
# tensor_parallel_size：张量并行数，若有多个 GPU，可设置为 GPU 数量（如 2）
llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    tensor_parallel_size=1,  # 单 GPU 设为 1
    gpu_memory_utilization=0.8  # 利用 80% 的 GPU 显存，留有余地
)

# 3. 输入提示词（遵循模型的 Prompt 格式，Llama 3 需用 <|begin_of_text|> 和 <|user|> 标签）
prompts = [
    "<|begin_of_text|><|user|>请简要介绍 vLLM 框架<|assistant|>"
]

# 4. 生成文本（批量处理，可传入多个 prompts）
outputs = llm.generate(prompts, sampling_params)

# 5. 打印结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"输入：{prompt}")
    print(f"输出：{generated_text}\n")

运行说明：首次运行会自动下载 Llama 3-8B-Instruct 模型（约 16GB，FP16 精度），若显存不足，可添加 quantization="fp8" 参数（需 CUDA 12.0+），将模型量化为 FP8 精度，显存占用可降至 8GB 左右。

2.3 API Server 示例（兼容 OpenAI 格式）

vLLM 支持启动兼容 OpenAI API 格式的服务器，可直接使用 OpenAI 的 SDK 或 curl 调用，无需修改代码，适合集成到现有系统中。

步骤 1：启动 API Server

# 启动服务器，加载 Llama 3-8B-Instruct 模型
# --model：模型名/路径
# --port：端口号
# --gpu-memory-utilization：显存利用率
vllm serve meta-llama/Llama-3-8B-Instruct --port 8000 --gpu-memory-utilization 0.8

# 若需支持量化，添加 --quantization 参数
# vllm serve meta-llama/Llama-3-8B-Instruct --port 8000 --quantization fp8

步骤 2：调用 API（curl 方式）

# 发送生成请求，格式与 OpenAI API 完全一致
curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3-8B-Instruct",
    "prompt": "<|begin_of_text|><|user|>解释什么是 PagedAttention<|assistant|>",
    "temperature": 0.7,
    "max_tokens": 150,
    "top_p": 0.9
  }'

步骤 3：调用 API（Python 方式，使用 OpenAI SDK）

from openai import OpenAI

# 连接本地 vLLM 服务器（替换 OpenAI 官方接口）
client = OpenAI(
    base_url="http://localhost:8000/v1",  # 本地 vLLM 服务器地址
    api_key="dummy-key"  # 占位符，vLLM 暂不强制验证 API Key
)

# 发送生成请求
response = client.completions.create(
    model="meta-llama/Llama-3-8B-Instruct",
    prompt="<|begin_of_text|><|user|>如何快速上手 vLLM<|assistant|>",
    temperature=0.7,
    max_tokens=120,
    top_p=0.9
)

# 打印结果
print("生成结果：", response.choices[0].text.strip())

说明：vLLM 的 API Server 还支持 Chat Completions（对话接口），用法与 OpenAI Chat API 一致，只需将请求地址改为 /v1/chat/completions，并调整 prompt 格式为对话格式即可。

3. 高级配置与性能调优 (关键部分)

vLLM 的性能表现高度依赖配置参数，本节详细解析核心启动参数、不同场景的最佳实践，以及量化格式的使用方法，帮助大家根据自身需求（高吞吐/低延迟）优化服务性能。

3.1 关键启动参数详解

无论是通过 Python API 初始化 LLM，还是通过命令行启动 API Server，以下参数都是最核心、最常用的，直接影响性能和稳定性。

3.1.1 --gpu-memory-utilization（显存利用率）

作用：设置 vLLM 可使用的 GPU 显存比例（0-1 之间），例如 0.8 表示使用 80% 的 GPU 显存。
原理：vLLM 会根据该比例预先分配内存池，用于存储 KV Cache 和模型权重，预留部分显存用于临时计算，避免 OOM。
最佳实践：
- 单模型单 GPU 场景：设置为 0.8-0.9，预留 10%-20% 显存，防止突发请求导致 OOM；
- 多模型或张量并行场景：设置为 0.7-0.8，预留更多显存用于模型分片和通信；
- 显存紧张时（如 16GB GPU 加载 13B 模型）：设置为 0.95，最大化利用显存，同时启用量化。

3.1.2 --max-model-len（最大模型长度）

作用：设置模型支持的最大 Token 长度（输入 + 输出），例如 4096 表示输入 + 输出的总 Token 数不超过 4096。
注意事项：
- 不能超过模型本身的最大长度（如 Llama 3-8B 最大长度为 8192）；
- 设置过大：会占用更多 KV Cache 内存（即使实际请求很短），导致显存浪费；
- 设置过小：会导致长请求无法处理，报错“exceeds max model length”。
最佳实践：根据实际业务场景设置，例如对话场景设置为 2048-4096，长文本生成场景设置为 4096-8192。

3.1.3 --tensor-parallel-size（张量并行数）

作用：将模型权重分片到多个 GPU 上，实现多 GPU 并行推理，突破单 GPU 显存限制。
原理：将 Transformer 层的权重（如 Attention 矩阵、全连接层）分割成多个部分，每个 GPU 负责一部分计算，通过通信同步结果，提升显存容量和计算速度。
最佳实践：
- 张量并行数必须等于 GPU 数量（如 2 个 GPU，设置为 2）；
- 小模型（≤13B）：单 GPU 即可，无需开启张量并行（开启后会有通信开销，反而降低性能）；
- 大模型（≥34B）：必须开启张量并行，例如 34B 模型用 4 个 GPU，设置为 4。

3.1.4 --quantization（量化格式）

作用：将模型权重从 FP16（默认）压缩到更低精度，减少显存占用，提升推理速度（部分量化格式）。
支持的格式：AWQ、GPTQ、FP8、INT8（实验性），具体说明见 3.3 节。
注意事项：量化会有轻微的精度损失（一般不影响实际使用），不同量化格式对硬件有要求（如 FP8 需 CUDA 12.0+）。

3.2 不同场景的参数配置最佳实践

vLLM 的核心优势是兼顾高吞吐和低延迟，不同场景（离线批处理 vs 在线服务）的参数配置差异较大，以下表格汇总了最佳实践（基于 NVIDIA A100 GPU，Llama 3-8B 模型）。

场景类型	核心目标	关键参数配置	补充说明
高吞吐离线批处理（如文本生成、数据标注）	最大化单位时间处理请求数，容忍一定延迟	1. gpu_memory_utilization=0.92. max_model_len=40963. quantization=fp8（可选）4. 批量传入 prompts（一次传入 32-64 个）5. tensor_parallel_size=GPU 数量	适合离线任务，可通过增大批量大小进一步提升吞吐量；若显存充足，可关闭量化以保证精度
低延迟在线服务（如对话机器人、实时问答）	最小化单次请求响应时间（TTFT/TPOT），保证用户体验	1. gpu_memory_utilization=0.852. max_model_len=2048（根据对话长度调整）3. quantization=fp8（优先保证速度）4. 启用流式输出（stream=True）5. tensor_parallel_size=1（单 GPU 减少通信延迟）	TTFT（Time To First Token）：首 Token 生成时间；TPOT（Time Per Output Token）：后续每个 Token 生成时间，需重点监控

补充：TTFT 是在线服务的核心指标（用户感知的“响应速度”），可通过减少 max_model_len、启用量化、优化 GPU 算力等方式降低 TTFT。

3.3 常用量化格式支持及使用方法

量化是平衡显存占用、推理速度和精度的关键手段，vLLM 支持多种主流量化格式，以下介绍最常用的 3 种，包括使用方法和适用场景。

3.3.1 FP8 量化（推荐，平衡速度与精度）

特点：将模型权重从 FP16（16 位）压缩到 FP8（8 位），显存占用减少 50%（如 8B 模型从 16GB 降至 8GB），推理速度提升 20%-30%，精度损失极小（几乎不影响生成质量）。
硬件要求：NVIDIA GPU 支持 FP8 张量核心（如 A100、H100、RTX 4090 等），CUDA 12.0+。

使用方法：

    `# 命令行启动 API Server 时启用

serve meta-llama/Llama-3-8B-Instruct --quantization fp8 --gpu-memory-utilization 0.9

Python API 中启用

llm = LLM(

model="meta-llama/Llama-3-8B-Instruct",
quantization="fp8",
gpu_memory_utilization=0.9

3.3.2 AWQ 量化（显存占用最低，适合小显存 GPU）

特点：基于 Activation-aware Weight Quantization 算法，将权重量化到 4 位（INT4），显存占用减少 75%（如 8B 模型从 16GB 降至 4GB），推理速度较快，精度损失略高于 FP8，但满足大部分场景需求。
硬件要求：NVIDIA GPU（CUDA 11.8+），无需 FP8 张量核心（适合 RTX 3090、A10 等中端 GPU）。

使用方法：

    `# 先安装 AWQ 依赖（已安装 vllm[awq] 可跳过）

install vllm[awq]

启动时指定量化格式为 awq，需使用 AWQ 量化后的模型

注：不能直接使用原始 FP16 模型，需先下载量化好的模型（如 TheBloke/Llama-3-8B-Instruct-AWQ）

vllm serve TheBloke/Llama-3-8B-Instruct-AWQ --quantization awq

Python API 使用

llm = LLM(

model="TheBloke/Llama-3-8B-Instruct-AWQ",
quantization="awq"

3.3.3 GPTQ 量化（兼容广泛，社区资源丰富）

特点：最主流的 4 位量化格式之一，社区资源丰富（大量预量化模型），显存占用与 AWQ 相当，推理速度略低于 AWQ 和 FP8，精度表现良好。
硬件要求：NVIDIA GPU（CUDA 11.8+），支持大部分中端及以上 GPU。
使用方法：
```
    `# 安装 GPTQ 依赖
```

install vllm[gptq]

使用预量化的 GPTQ 模型（如 TheBloke/Llama-3-8B-Instruct-GPTQ-4bit）

vllm serve TheBloke/Llama-3-8B-Instruct-GPTQ-4bit --quantization gptq

Python API 使用

llm = LLM(

model="TheBloke/Llama-3-8B-Instruct-GPTQ-4bit",
quantization="gptq"

总结：优先选择 FP8（性能最佳）；显存紧张（如 16GB GPU 加载 13B 模型）选择 AWQ；若需要兼容更多模型，选择 GPTQ。

4. 进阶开发与集成

本节介绍 vLLM 的进阶用法，包括自定义采样参数、集成 LoRA 适配器实现多租户/多模型切换，以及自定义 CUDA Kernel 的简要思路，帮助大家实现二次开发，适配复杂业务场景。

4.1 自定义 Sampling 参数

Sampling 参数决定了文本生成的随机性、多样性和准确性，vLLM 支持多种采样参数，可根据业务需求（如精准回答、创意生成）自定义配置，以下是常用参数及用法。

4.1.1 核心 Sampling 参数详解

from vllm import SamplingParams

# 自定义采样参数，适用于 Python API 生成
custom_sampling = SamplingParams(
    temperature=0.3,  # 低温度（0.1-0.5）：生成内容更确定、更精准，适合问答、摘要场景
    # temperature=0.9：高温度（0.7-1.0）：生成内容更多样、更有创意，适合文案、故事生成
    top_p=0.85,       # 核采样，过滤低概率 Token，0.8-0.95 较为合适，避免生成无意义内容
    top_k=50,         # _top_k 采样，只从概率前 50 的 Token 中选择，与 top_p 二选一即可
    max_tokens=200,   # 最大生成 Token 数
    stop=["</s>", "###"],  # 多停止符，当生成到其中任意一个时停止
    presence_penalty=0.1,  # 存在惩罚，减少重复出现的 Token（0-2），避免生成冗余内容
    frequency_penalty=0.1, # 频率惩罚，减少高频 Token 的出现，进一步降低冗余
    logit_bias={32000: 2.0},  # 日志偏差，提高指定 Token 的生成概率（32000 是 Llama 3 的 <|user|>  Token ID）
    skip_special_tokens=True  # 跳过特殊 Token（如 </s>），使生成结果更简洁
)

# 使用自定义采样参数生成文本
llm = LLM(model="meta-llama/Llama-3-8B-Instruct")
prompts = ["<|begin_of_text|><|user|>写一篇关于 vLLM 性能优化的短文<|assistant|>"]
outputs = llm.generate(prompts, custom_sampling)
print(outputs[0].outputs[0].text)

4.1.2 采样参数最佳实践

精准场景（问答、代码生成）：temperature=0.1-0.3，top_p=0.8-0.9，开启 presence_penalty=0.1-0.2；
创意场景（文案、故事）：temperature=0.7-0.9，top_p=0.9-0.95，关闭惩罚参数或设为 0；
避免重复：开启 presence_penalty 和 frequency_penalty，取值 0.1-0.3，不宜过高（否则会导致生成不连贯）。

4.2 集成 LoRA 适配器实现多租户/多模型切换

在多租户场景中，不同用户可能需要不同的模型微调效果（如不同行业的问答、不同风格的生成），若为每个租户部署独立模型，会占用大量显存。vLLM 支持集成 LoRA（Low-Rank Adaptation）适配器，可在一个基础模型上加载多个 LoRA 权重，实现多租户/多模型切换，大幅节省显存。

4.2.1 前提条件

已训练好 LoRA 适配器（基于基础模型，如 Llama 3-8B），LoRA 权重格式为 Hugging Face 格式；
安装 peft 库（用于加载 LoRA 权重）：pip install peft。

4.2.2 集成 LoRA 的代码示例

from vllm import LLM, SamplingParams
from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer

# 1. 加载基础模型和 Tokenizer（与 LoRA 训练时的基础模型一致）
base_model_name = "meta-llama/Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(base_model_name)
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 2. 加载多个 LoRA 适配器（示例：两个不同租户的 LoRA 权重）
lora_model_1 = PeftModel.from_pretrained(base_model, "path/to/tenant1-lora")  # 租户 1 的 LoRA
lora_model_2 = PeftModel.from_pretrained(base_model, "path/to/tenant2-lora")  # 租户 2 的 LoRA

# 3. 将 LoRA 模型转换为 vLLM 可加载的格式（合并 LoRA 权重到基础模型）
# 注意：vLLM 目前不支持动态加载 LoRA，需合并后加载，可通过循环切换模型实现多租户
def load_lora_model(lora_model):
    # 合并 LoRA 权重（不修改基础模型，避免污染）
    merged_model = lora_model.merge_and_unload()
    # 初始化 vLLM LLM 实例
    return LLM(
        model=merged_model,
        tokenizer=tokenizer,
        gpu_memory_utilization=0.85
    )

# 4. 多租户切换示例
sampling_params = SamplingParams(temperature=0.7, max_tokens=150)
prompts = ["请回答关于金融行业的问题：什么是私募基金？"]

# 租户 1（金融行业 LoRA）
llm_tenant1 = load_lora_model(lora_model_1)
output1 = llm_tenant1.generate(prompts, sampling_params)
print("租户 1 输出：", output1[0].outputs[0].text)

# 租户 2（教育行业 LoRA）
llm_tenant2 = load_lora_model(lora_model_2)
output2 = llm_tenant2.generate(prompts, sampling_params)
print("租户 2 输出：", output2[0].outputs[0].text)

4.2.3 注意事项

vLLM 目前不支持动态加载/卸载 LoRA 权重，需合并后加载，切换租户时需重新初始化 LLM 实例（开销较小）；
LoRA 权重体积小（通常几 MB 到几十 MB），合并后模型体积与基础模型一致，不会额外占用大量显存；
建议为每个租户预加载合并后的模型，避免实时合并带来的延迟。

4.3 自定义 CUDA Kernel 或使用扩展接口

vLLM 的核心计算逻辑（如 PagedAttention）是基于 CUDA Kernel 实现的，若需要进一步优化性能（如适配特定硬件、自定义 Attention 逻辑），可通过以下两种方式扩展。

4.3.1 自定义 CUDA Kernel（高级）

vLLM 的 CUDA Kernel 代码位于 vllm/cuda_ops/ 目录下，主要包括 Attention、线性层等核心计算模块。自定义 CUDA Kernel 的步骤如下：

基于 vLLM 现有 Kernel 代码，修改或新增 CUDA 函数（如优化 Attention 计算逻辑，适配特定 GPU 架构）；
编写 C++ 包装代码，将 CUDA Kernel 暴露给 Python 接口；
重新编译 vLLM（修改 setup.py，添加自定义 Kernel 的编译配置）；
在 Python 代码中调用自定义 Kernel，替换原有计算逻辑。

注意：自定义 CUDA Kernel 需要具备扎实的 CUDA 编程基础，建议参考 vLLM 官方文档的扩展指南，避免破坏原有架构。

4.3.2 使用 vLLM 的扩展接口

vLLM 提供了简单的扩展接口，允许开发者自定义 Tokenizer、采样逻辑等，无需修改底层 CUDA 代码，适合大多数二次开发场景。

from vllm import LLM, SamplingParams
from vllm.tokenizers import Tokenizer

# 示例 1：自定义 Tokenizer（适配自定义模型的 Tokenizer）
class CustomTokenizer(Tokenizer):
    def __init__(self, tokenizer_path):
        super().__init__()
        # 加载自定义 Tokenizer（如基于 SentencePiece 训练的 Tokenizer）
        from transformers import AutoTokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_path)
    
    def encode(self, prompt, **kwargs):
        # 自定义编码逻辑
        return self.tokenizer.encode(prompt, **kwargs)
    
    def decode(self, tokens, **kwargs):
        # 自定义解码逻辑
        return self.tokenizer.decode(tokens, **kwargs)

# 使用自定义 Tokenizer 初始化 LLM
custom_tokenizer = CustomTokenizer("path/to/custom-tokenizer")
llm = LLM(
    model="path/to/custom-model",
    tokenizer=custom_tokenizer
)

# 示例 2：自定义采样逻辑（继承 SamplingParams，重写采样方法）
class CustomSampling(SamplingParams):
    def __init__(self):
        super().__init__(temperature=0.7, max_tokens=100)
    
    def sample(self, logits):
        # 自定义采样逻辑（如基于业务规则过滤 Token）
        # 这里简化示例，返回概率最高的 Token
        return logits.argmax(dim=-1)

5. 常见问题与调试 (Troubleshooting)

本节汇总新手最容易遇到的报错及解决方案，同时提供性能监控建议，帮助大家快速定位和解决问题，保障服务稳定运行。

5.1 常见报错及解决方案

报错 1：OutOfMemoryError (OOM)：CUDA out of memory

原因：GPU 显存不足，可能是模型体积过大、max_model_len 设置过高、显存利用率设置过高，或同时运行其他占用显存的程序。
解决方案：
1. 启用量化：添加 --quantization fp8/awq/gptq，减少显存占用；
2. 降低显存利用率：将 --gpu-memory-utilization 从 0.9 降至 0.8 或更低；
3. 减小 max_model_len：根据实际场景设置（如从 8192 降至 4096）；
4. 使用张量并行：若有多个 GPU，设置 --tensor-parallel-size 为 GPU 数量，将模型分片；
5. 关闭其他占用显存的程序（如 PyTorch 进程、其他模型服务）。

报错 2：CUDA error: invalid device function / CUDA version mismatch

原因：vLLM 编译时使用的 CUDA 版本与当前 GPU 驱动支持的 CUDA 版本不匹配（如 vLLM 用 CUDA 12.1 编译，而 GPU 驱动只支持 CUDA 11.8）。
解决方案：

1. 查看 GPU 驱动支持的最高 CUDA 版本：`nvidia-smi`（右上角显示 CUDA Version）；

2. 安装对应版本的 CUDA（如驱动支持 CUDA 12.1，就安装 CUDA 12.1）；

3. 重新安装 vLLM，确保编译时使用对应版本的 CUDA：`pip install vllm --no-cache-dir`；

4. 推荐使用 Docker 安装，避免 CUDA 版本冲突。

报错 3：Model loading failed: Could not load model ...

原因：模型路径错误、模型文件损坏、模型格式不支持，或量化模型与指定的量化格式不匹配（如用 AWQ 格式的模型，却指定 --quantization gptq）。
解决方案：
1. 检查模型路径：确保路径正确，若使用 Hugging Face 模型名，确认网络可访问（或手动下载后指定本地路径）；
2. 检查模型完整性：若手动下载，确认所有文件（如 pytorch_model-xxx.bin）都已下载完成，无损坏；
3. 匹配量化格式：AWQ 模型对应 --quantization awq，GPTQ 模型对应 --quantization gptq，不可混用；
4. 确认模型支持：vLLM 支持大多数 Hugging Face 格式的 Transformer 模型，若为自定义模型，需确保模型结构与 vLLM 兼容。

报错 4：Request exceeds max model length

原因：输入 prompt 的 Token 数 + 生成的 Token 数，超过了 --max-model-len 设置的值。
解决方案：
1. 增大 --max-model-len（不超过模型本身的最大长度）；
2. 缩短输入 prompt 的长度，删除无关内容；
3. 减少 --max_tokens（生成的 Token 数），避免生成过长内容。

报错 5：API Server 启动失败：Address already in use

原因：指定的端口（如 8000）已被其他程序占用。
解决方案：
1. 查看占用端口的程序：netstat -tuln | grep 8000（Linux/Mac）或 netstat -ano | findstr 8000（Windows）；
2. 关闭占用端口的程序，或更换端口（如 --port 8001）。

5.2 性能监控建议

vLLM 服务的性能监控核心是跟踪“吞吐量”“延迟”和“显存占用”，以下是常用的监控工具和关键指标。

5.2.1 关键监控指标

TTFT（Time To First Token）：首 Token 生成时间，在线服务的核心延迟指标，建议控制在 100ms 以内（GPU 性能足够的情况下）；
TPOT（Time Per Output Token）：后续每个 Token 的生成时间，建议控制在 10ms 以内，反映推理速度；
吞吐量（Throughput）：单位时间内处理的请求数（或生成的 Token 数），离线批处理场景重点关注；
显存占用（GPU Memory Usage）：实时监控 GPU 显存使用情况，避免 OOM，建议长期保持在 80%-90% 以内；
请求队列长度：在线服务场景，若队列长度持续增长，说明服务压力过大，需扩容 GPU 或优化参数。

5.2.2 常用监控工具

nvidia-smi：最基础的 GPU 监控工具，实时查看显存占用、GPU 利用率，命令：nvidia-smi -l 1（每秒刷新一次）；
vLLM 内置监控：启动 API Server 时添加 --enable-metrics 参数，会暴露 Prometheus 监控指标（如 vllm_requests_total、vllm_ttft_seconds），可通过 Prometheus + Grafana 可视化；
tqdm：Python API 中可结合 tqdm 监控批量生成的进度和速度，示例：
```
    `from tqdm import tqdm
```

prompts = [f"生成第 {i} 段文本" for i in range(100)]
sampling_params = SamplingParams(max_tokens=50)
llm = LLM(model="meta-llama/Llama-3-8B-Instruct")

批量生成并监控进度

for prompt in tqdm(prompts, desc="生成进度"):

outputs = llm.generate([prompt], sampling_params)`

6. 实战演练项目

本节设计一个小型实战任务：构建一个支持流式输出、带有简单鉴权的高并发问答服务 Demo，整合前面所学的知识（环境搭建、API Server、高级配置、性能调优），实现可直接部署的服务。

6.1 项目需求

功能：支持用户发送问答请求，返回流式输出（逐 Token 生成，提升用户体验）；
鉴权：简单的 API Key 鉴权，防止未授权访问；
性能：支持高并发，低延迟（TTFT ≤ 100ms，TPOT ≤ 10ms）；
模型：使用 Llama 3-8B-Instruct（FP8 量化，节省显存）；
部署：基于 vLLM API Server，可直接启动并对外提供服务。

6.2 项目实现步骤

步骤 1：环境准备

# 安装依赖
pip install vllm[fp8] openai fastapi uvicorn python-multipart
# 说明：vllm[fp8] 用于FP8量化支持，openai用于API调用，fastapi+uvicorn用于鉴权服务搭建，python-multipart处理请求数据

步骤 2：搭建简单鉴权服务（基于FastAPI）

为API Server添加API Key鉴权，防止未授权访问，同时作为vLLM API Server的代理层，转发请求并验证权限。创建文件auth_server.py，代码如下：

from fastapi import FastAPI, Request, HTTPException, Depends
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import StreamingResponse
import requests
import uvicorn

# 初始化FastAPI应用
app = FastAPI(title="vLLM 鉴权代理服务", version="1.0")

# 允许跨域请求（前端调用需开启）
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # 生产环境需替换为具体前端域名
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# 配置合法API Key（生产环境建议从配置文件或环境变量读取）
VALID_API_KEYS = {"vllm-demo-2024", "test-key-123"}

# 鉴权依赖：验证请求头中的API Key
def verify_api_key(request: Request):
    api_key = request.headers.get("X-API-Key")
    if not api_key or api_key not in VALID_API_KEYS:
        raise HTTPException(status_code=401, detail="Invalid or missing API Key")
    return api_key

# 代理vLLM的流式对话接口（核心接口）
@app.post("/v1/chat/completions")
async def chat_completions(request: Request, api_key: str = Depends(verify_api_key)):
    # 读取请求体（保持与OpenAI API格式一致）
    request_body = await request.json()
    
    # 转发请求到本地vLLM API Server
    vllm_url = "http://localhost:8000/v1/chat/completions"
    try:
        # 流式转发响应（逐Token返回，提升用户体验）
        response = requests.post(
            vllm_url,
            json=request_body,
            stream=True  # 开启流式响应
        )
        # 验证vLLM返回状态
        if response.status_code != 200:
            raise HTTPException(status_code=response.status_code, detail=response.text)
        
        # 流式返回响应给前端
        def stream_generator():
            for chunk in response.iter_content(chunk_size=1024):
                if chunk:
                    yield chunk
        return StreamingResponse(stream_generator(), media_type="text/event-stream")
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Service error: {str(e)}")

# 启动鉴权服务
if __name__ == "__main__":
    uvicorn.run(
        app="auth_server:app",
        host="0.0.0.0",  # 允许外部访问
        port=8001,       # 鉴权服务端口（与vLLM API Server区分）
        workers=4        # 启动4个工作进程，支持高并发
    )

步骤 3：启动vLLM API Server（带FP8量化）

启动vLLM服务，加载Llama 3-8B-Instruct模型，启用FP8量化节省显存，配置合理的显存利用率和最大模型长度，适配问答场景：

# 启动vLLM API Server，监听8000端口
vllm serve meta-llama/Llama-3-8B-Instruct \
  --port 8000 \
  --gpu-memory-utilization 0.85 \
  --max-model-len 2048 \
  --quantization fp8 \
  --enable-metrics  # 开启监控指标，便于后续性能监控
# 说明：--max-model-len=2048适配对话场景，--quantization=fp8将显存占用降至8GB左右，适合中端GPU

步骤 4：启动鉴权服务

在另一个终端启动鉴权代理服务，监听8001端口，实现API Key验证和请求转发：

# 启动鉴权服务
python auth_server.py
# 启动成功后，终端会显示：Uvicorn running on http://0.0.0.0:8001 (Press CTRL+C to quit)

步骤 5：测试服务（流式输出+鉴权）

使用curl或Python代码测试服务，验证鉴权功能和流式输出效果，以下提供两种测试方式：

方式1：curl测试（流式输出）

# 发送流式对话请求，携带合法API Key（X-API-Key）
curl http://localhost:8001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "X-API-Key: vllm-demo-2024" \
  -d '{
    "model": "meta-llama/Llama-3-8B-Instruct",
    "messages": [
      {"role": "user", "content": "请详细说明vLLM中PagedAttention和Continuous Batching的协同作用"}
    ],
    "temperature": 0.7,
    "max_tokens": 300,
    "stream": true  # 开启流式输出
  }'
# 预期结果：逐段返回生成内容，终端会持续输出响应片段，直到生成完成

方式2：Python代码测试（验证鉴权+流式）

from openai import OpenAI

# 连接鉴权服务（而非直接连接vLLM）
client = OpenAI(
    base_url="http://localhost:8001/v1",
    api_key="dummy-key"  # 此处api_key无效，鉴权由X-API-Key控制
)

# 发送流式请求，携带合法API Key
stream = client.chat.completions.create(
    model="meta-llama/Llama-3-8B-Instruct",
    messages=[
        {"role": "user", "content": "如何优化vLLM的TTFT指标？"}
    ],
    temperature=0.7,
    max_tokens=200,
    stream=True,
    headers={"X-API-Key": "vllm-demo-2024"}  # 关键：携带合法API Key
)

# 逐Token打印流式输出
print("流式生成结果：")
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

# 测试无效API Key（预期报错）
try:
    stream_invalid = client.chat.completions.create(
        model="meta-llama/Llama-3-8B-Instruct",
        messages=[{"role": "user", "content": "测试无效API Key"}],
        stream=True,
        headers={"X-API-Key": "invalid-key"}
    )
except Exception as e:
    print(f"\n\n无效API Key测试结果：{e}")  # 预期输出401错误

步骤 6：性能优化与监控

结合前面所学的性能调优知识，对Demo服务进行优化，并监控核心指标：

性能优化：

显存优化：已启用FP8量化，若显存仍紧张，可改为AWQ量化（需下载AWQ量化模型）；

并发优化：鉴权服务启动4个worker，vLLM可通过--max-num-batched-tokens调整批处理大小（如设置为1024），提升吞吐量；
延迟优化：确保单GPU部署（tensor_parallel_size=1），减少通信延迟，TTFT可控制在100ms以内。

性能监控：

监控GPU显存：执行`nvidia-smi -l 1`，查看显存占用（应稳定在80%-85%）；

监控vLLM指标：访问http://localhost:8000/metrics，查看TTFT、TPOT等指标；
并发测试：使用工具（如locust）模拟多用户请求，验证服务高并发能力，确保无OOM和请求阻塞。

6.3 项目部署说明（生产环境参考）

本Demo可直接用于测试和小型部署，生产环境需补充以下优化：

鉴权优化：将API Key存储在环境变量或配置文件（如.env），避免硬编码；添加API Key过期、权限分级功能；
模型部署：使用Docker容器化部署vLLM和鉴权服务，通过Docker Compose管理多服务，避免环境冲突；
高可用：多GPU部署（启用张量并行），配置负载均衡，避免单点故障；
监控告警：结合Prometheus+Grafana搭建监控面板，对OOM、高延迟、请求失败等异常设置告警；
日志管理：添加日志记录（如使用logging模块），记录请求日志、错误日志，便于问题排查。

6.4 项目总结

本实战项目整合了vLLM环境搭建、API Server启动、量化配置、鉴权服务搭建和流式输出等核心知识点，实现了一个可直接部署的高并发问答服务Demo。通过本项目，可掌握：

vLLM API Server的高级配置（量化、显存利用率、最大模型长度）；
如何为vLLM服务添加鉴权，保障服务安全；
流式输出的实现方式，提升用户体验；
vLLM服务的性能优化和监控方法。

可根据实际业务需求，扩展功能（如多模型切换、请求限流、前端界面），实现生产级别的LLM推理服务。

7. 总结与进阶方向

7.1 核心知识点总结

本指南从核心原理、环境搭建、高级配置、进阶开发、问题调试到实战演练，全面覆盖了vLLM开发的全流程，核心要点如下：

核心原理：PagedAttention解决内存碎片化问题，Continuous Batching提升吞吐量，两者协同构成vLLM高性能的核心；
环境搭建：优先选择NVIDIA GPU（CUDA 12.0+），推荐Docker安装避免环境冲突，Pip安装适合开发调试；
性能调优：核心是“量化压缩+参数配置+场景适配”，FP8量化平衡速度与精度，AWQ适合小显存场景，参数配置需结合离线/在线场景调整；
进阶开发：可通过自定义Sampling参数、集成LoRA、扩展接口等方式，适配复杂业务场景；
问题调试：常见报错（OOM、CUDA版本不匹配、模型加载失败）均有明确解决方案，重点关注显存和参数配置；
实战落地：结合鉴权、流式输出、性能监控，可快速搭建可部署的高并发LLM推理服务。

7.2 进阶学习方向

掌握本指南内容后，可从以下方向进一步深入学习，提升vLLM开发能力：

底层源码解析：深入研究vLLM的PagedAttention CUDA Kernel实现、Continuous Batching调度逻辑，理解高性能的底层原理；
多模型与多GPU部署：学习vLLM的多模型部署（如模型并行）、多GPU张量并行/流水线并行配置，突破单GPU性能和显存限制；
自定义优化：开发自定义CUDA Kernel、优化Sampling逻辑，适配特定硬件（如H100）和业务场景（如长文本推理）；
生态集成：将vLLM与LangChain、LlamaIndex等框架集成，实现复杂的LLM应用（如RAG检索增强生成）；
最新特性跟踪：关注vLLM官方更新，学习新特性（如动态批处理优化、新量化格式支持），保持技术同步。

7.3 参考资源

vLLM官方文档：https://docs.vllm.ai/（最权威的学习资源，包含最新特性和API说明）；
vLLM GitHub仓库：https://github.com/vllm-project/vllm（源码、示例和问题排查）；
Hugging Face模型库：https://huggingface.co/（获取预量化模型、基础模型）；
vLLM性能优化实战：官方博客和技术分享，了解工业界落地案例。

本指南旨在帮助开发者快速上手vLLM并落地生产级服务，后续可结合实际业务场景，灵活运用所学知识，实现高性能、高可用的LLM推理服务。

（注：文档部分内容可能由 AI 生成）