图模式指南¶

概述¶

本指南说明了图模式在 vLLM Ascend 中的使用方式。

vLLM 已经提供了通用的图模式架构、模式定义和编译集成。关于这些上游概念，请参阅：

本文档专注于 Ascend 特定的视角：图模式在 Ascend 上如何工作，涉及哪些组件，如何配置它们，以及用户应注意哪些约束。

Ascend 上的当前状态¶

图模式目前仅在 V1 引擎 上可用。
ACLGraph（通过 torch.npu.NPUGraph 进行捕获/重放）是 Ascend 上默认图路径使用的运行时图执行机制。
Npugraph_ex 是一个编译时 FX 图优化层，在 FULL/FULL_DECODE_ONLY 模式下默认启用。它在 ACLGraph 捕获图之前对其进行优化。
XliteGraph 是用于选定模型系列和环境的可选图路径。
在上下文并行场景中，cudagraph_mode="FULL" 尚未得到充分支持。

Ascend 上的图路径¶

vLLM Ascend 提供了两种图路径：

图路径	默认值	描述	起始版本
ACLGraph (+ Npugraph_ex)	是	编译时FX优化 (Npugraph_ex) + 运行时捕获/重放 (ACLGraph)	v0.9.0rc1 (Npugraph_ex 自 v0.15.0rc1 起)
XliteGraph	否	针对选定模型系列的预配置图路径。需要单独安装	v0.11.0

图模式在 Ascend 上的工作原理¶

Ascend 上的默认图路径涉及两个阶段：编译时优化 和 运行时捕获/重放。ACLGraph 处理运行时捕获/重放。编译时阶段因 cudagraph_mode 而异：

FULL_AND_PIECEWISE：默认模式，与上游 vLLM 策略相同。编译时路径遵循 PIECEWISE 编译，而运行时对于统一的解码批次仍可能使用全图行为。
FULL / FULL_DECODE_ONLY：Npugraph_ex 通过 npugraph_ex 优化 FX 图（force_eager=True，仅编译时，不捕获）。优化后的可调用对象随后在运行时由 ACLGraph 捕获和重放。
PIECEWISE：Npugraph_ex 被禁用。仅在编译时应用基本的 FX 融合传递。ACLGraph 在运行时捕获和重放生成的可调用对象。
NONE：不进行编译或图捕获。模型以 eager 模式运行。

`cudagraph_mode`	编译时	运行时	Npugraph_ex
FULL_AND_PIECEWISE	分段编译路径	混合：PIECEWISE 用于混合批次，FULL-capable 用于均匀解码批次	禁用
FULL / FULL_DECODE_ONLY	Npugraph_ex FX 优化	ACLGraph 捕获/重放	启用
PIECEWISE	仅融合传递	ACLGraph 捕获/重放	禁用
NONE	无	即时执行	禁用

此外，XliteGraph 可作为选定模型系列的可选替代图路径（请参阅使用 XliteGraph）。

使用 ACLGraph¶

ACLGraph 是 Ascend 上的运行时图捕获/重放机制。当图模式激活时（即 cudagraph_mode 不是 NONE），它会自动启用，无需显式配置。

基本用法¶

离线示例：

from vllm import LLM

llm = LLM(model="path/to/Qwen3-0.6B")
outputs = llm.generate("Hello, how are you?")

在线示例：

vllm serve Qwen/Qwen3-0.6B

显式 `cudagraph_mode` 配置¶

通用的 cudagraph_mode 选项来自上游 vLLM。在 Ascend 上，最终生效的模式可能仍会根据平台和后端支持进行调整，因此官方的 vLLM CUDA Graphs 文档仍然是模式语义的权威参考。

CLI 示例：

vllm serve Qwen/Qwen3-0.6B \
  --compilation-config '{"cudagraph_mode": "PIECEWISE"}'

Python 示例：

from vllm import LLM

llm = LLM(
    model="Qwen/Qwen3-0.6B",
    compilation_config={"cudagraph_mode": "PIECEWISE"},
)

关于 NONE、PIECEWISE、FULL、FULL_DECODE_ONLY 和 FULL_AND_PIECEWISE 的详细含义，以及通用的回退策略，请参阅上游的 CUDA Graphs 设计文档。

注意力后端兼容性¶

并非所有注意力后端都支持所有图模式。vLLM 在兼容性检查期间会检查注意力后端的兼容性，并在可能的情况下自动将 cudagraph_mode 调整为更兼容的模式，而不是立即失败。在实践中，这意味着请求的全图模式可能会被缩小为混合或分段模式，如果后端根本无法支持图执行，则图模式可能会被禁用。

在 Ascend 上，当前注意力后端的支持级别如下：

注意力后端	声明支持	实际含义
`attention_v1`	`ALWAYS`	支持混合预填充/解码批次的图执行
`context_parallel/attention_cp`	`ALWAYS`	支持混合预填充/解码批次的图执行
`mla_v1`	`UNIFORM_BATCH`	图执行仅限于均匀批次；完整图限制更多
`context_parallel/mla_cp`	`UNIFORM_BATCH`	图执行仅限于均匀批次；完整图限制更多
`sfa_v1`	`UNIFORM_BATCH`	图执行仅限于均匀批次；完整图限制更多
`context_parallel/sfa_cp`	`UNIFORM_BATCH`	图执行仅限于均匀批次；完整图限制更多

这就是为什么 Ascend 上的有效图模式可能与配置中请求的模式不同的原因。

捕获资源耗尽故障排除¶

如果 ACLGraph 捕获失败，原因是配置的图大小超出了当前堆栈可用的运行时资源，vLLM Ascend 现在会引发一个带有缓解指导的专用错误。实际上，最有用的操作是：

升级到可用的较新 HDK/CANN 堆栈；
减少 cudagraph_capture_sizes 或 max_cudagraph_capture_size；
当工作负载主要是均匀解码时，优先使用 FULL 或 FULL_DECODE_ONLY；
临时禁用图模式以确认问题与捕获相关。

这最可能出现在 PIECEWISE 或 FULL_AND_PIECEWISE 配置中，因为这些路径往往比均匀的全图解码捕获更多的图。

使用 Npugraph_ex¶

如 RFC 中所述，Npugraph_ex 是一个编译时 FX 图优化层，与 ACLGraph 协同工作。它在 ACLGraph 在运行时捕获模型 FX 图之前对其进行优化。其性能优势主要来自于将多个算子融合为单个内核（例如，add + rms_norm → npu_add_rms_norm），以减少内核启动开销。

默认行为¶

当 cudagraph_mode 为 FULL 或 FULL_DECODE_ONLY 时，Npugraph_ex 默认启用。在 PIECEWISE 或 NONE 模式下会自动禁用。

这意味着对于大多数用户，Npugraph_ex 无需任何显式配置即可生效：

from vllm import LLM

# Npugraph_ex is enabled by default in FULL/FULL_DECODE_ONLY mode
llm = LLM(model="path/to/Qwen2-7B-Instruct")
outputs = llm.generate("Hello, how are you?")

显式配置¶

要显式控制 Npugraph_ex：

离线示例：

from vllm import LLM

model = LLM(
    model="path/to/Qwen2-7B-Instruct",
    additional_config={
        "ascend_compilation_config": {
            "enable_npugraph_ex": True,
        }
    }
)
outputs = model.generate("Hello, how are you?")

在线示例：

vllm serve Qwen/Qwen2-7B-Instruct \
  --additional-config '{"ascend_compilation_config":{"enable_npugraph_ex":true}}'

要显式禁用 Npugraph_ex：

vllm serve Qwen/Qwen2-7B-Instruct \
  --additional-config '{"ascend_compilation_config":{"enable_npugraph_ex":false}}'

静态内核编译¶

静态内核编译是一个**可选**功能，它在编译时使用固定形状预编译算子二进制文件，从而减少具有静态或接近静态形状网络的运行时开销。它**默认禁用**，必须显式启用。

Note

启用静态内核会在服务启动时的图捕获阶段触发一次编译过程。根据要编译的算子数量和模型复杂度，这可能会增加**几分钟到几十分钟**的启动时间。完成后，后续的请求处理不受影响。

离线示例：

from vllm import LLM

model = LLM(
    model="path/to/Qwen2-7B-Instruct",
    additional_config={
        "ascend_compilation_config": {
            "enable_npugraph_ex": True,
            "enable_static_kernel": True,
        }
    }
)
outputs = model.generate("Hello, how are you?")

在线示例：

vllm serve Qwen/Qwen2-7B-Instruct \
  --additional-config '{"ascend_compilation_config":{"enable_npugraph_ex":true, "enable_static_kernel":true}}'

验证静态内核已生效¶

验证静态内核是否生效的推荐方法是通过 Ascend Profiling：

使用 Ascend PyTorch Profiler (torch_npu.profiler) 收集运行模型的性能分析跟踪。
打开生成的 op_statistic.csv 文件。
查找 op_type 或 name 列包含关键字 static_kernel 的算子。如果存在此类条目，则静态内核编译已对这些算子生效。

在编译阶段，您将看到一个 Python 警告（默认可见）：

Starting static kernel compilation, the build directory is <path>

这确认了编译已被触发。没有此消息意味着静态内核未启用或直接重用了缓存结果。

有关 Npugraph_ex 的更多详细信息，请参阅 npugraph_ex 指南。

使用 XliteGraph¶

XliteGraph 是 Llama、Qwen 密集系列模型、Qwen MoE 系列模型和 Qwen3-VL 的可选路径。它需要安装 Xlite 并通过 xlite_graph_config 进行配置。

首先安装 Xlite：

pip install xlite

离线示例：

from vllm import LLM

# Xlite supports decode-only mode by default.
# Full mode can be enabled with "full_mode": True.
llm = LLM(
    model="path/to/Qwen3-32B",
    tensor_parallel_size=8,
    additional_config={
        "xlite_graph_config": {
            "enabled": True,
            "full_mode": True,
        }
    },
)
outputs = llm.generate("Hello, how are you?")

在线示例：

vllm serve path/to/Qwen3-32B \
  --tensor-parallel-size 8 \
  --additional-config '{"xlite_graph_config": {"enabled": true, "full_mode": true}}'

有关 Xlite 的更多详细信息，请参阅 Xlite README。

常见限制与注意事项¶

XliteGraph 应被视为一种替代图路径，而不是在所有场景中直接替代 ACLGraph。
模型和后端覆盖范围仍在发展中，因此适用于一个模型系列的配置可能尚不推荐用于另一个模型系列。
编码器-解码器模型目前不保留 FULL_AND_PIECEWISE；在 Ascend 上，它们会根据编译支持回退到 PIECEWISE 或 NONE。

回退到 Eager 模式¶

如果您遇到图模式问题，可以通过设置 enforce_eager=True 临时回退到 eager 模式。

如果 ACL 图捕获失败，错误文本中包含已确认的流资源签名，例如 207008 以及 Stream resources are insufficient 或 Insufficient_Stream_Resources，vLLM Ascend 将重新引发该捕获失败，并附带针对性的缓解指导。实际上，主要手段是：升级到较新的 HDK/CANN 堆栈、减少 cudagraph_capture_sizes、降低 max_cudagraph_capture_size，或者在工作负载主要是均匀解码时优先使用 FULL / FULL_DECODE_ONLY。

离线示例：

from vllm import LLM

llm = LLM(model="path/to/your/model", enforce_eager=True)
outputs = llm.generate("Hello, how are you?")

在线示例：

vllm serve path/to/your/model --enforce-eager

图模式指南¶

概述¶

Ascend 上的当前状态¶

Ascend 上的图路径¶

图模式在 Ascend 上的工作原理¶

使用 ACLGraph¶

基本用法¶

显式 cudagraph_mode 配置¶

注意力后端兼容性¶

捕获资源耗尽故障排除¶

使用 Npugraph_ex¶

默认行为¶

显式配置¶

静态内核编译¶

验证静态内核已生效¶

使用 XliteGraph¶

常见限制与注意事项¶

回退到 Eager 模式¶

参考资料¶

显式 `cudagraph_mode` 配置¶