Qwen3-VL-235B-A22B-Instruct¶

1 引言¶

Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列中的大规模稀疏 MoE 视觉语言模型。它专为多模态对话、图像理解、多图推理、类 OCR 视觉问答以及长上下文生成而设计。

本文档描述了该模型的主要验证步骤，包括支持的特性、前提条件、安装、单节点在线部署、多节点部署、Prefill-Decode (PD) 分离、功能验证、精度与性能评估、性能调优以及常见问题解答。

Qwen3-VL-235B-A22B-Instruct 教程是在 v0.12.0 左右的 vLLM-Ascend 验证周期中引入的。请使用当前 vllm-ascend 文档镜像占位符或更高版本运行以下示例。

2 支持的特性¶

请参考支持的特性列表获取该模型支持的特性矩阵。

请参考特性指南获取特性的配置方法。

3 前提条件¶

3.1 模型权重¶

Qwen3-VL-235B-A22B-Instruct (BF16 版本)：需要 1 个 Atlas 800 A3 (64G x 16) 节点或 2 个 Atlas 800 A2 (64G x 8) 节点。模型权重。
Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot (单节点验证使用的量化版本)：需要 1 个 Atlas 800 A3 (64G x 16) 节点。模型权重。

建议将模型权重下载到跨多个节点的共享目录中。

3.2 验证多节点通信（可选）¶

如果要在多节点环境中部署模型，请按照验证多节点通信环境中的说明验证通信环境。

4 安装¶

4.1 Docker 镜像安装¶

根据您的机器类型选择镜像，并在节点上启动Docker镜像，请参考安装指南。

A3 系列A2 系列

在每个节点上启动 Docker 镜像。

export IMAGE=quay.io/ascend/vllm-ascend:v0.22.1rc1-a3
docker run --rm \
    --name vllm-ascend \
    --shm-size=512g \
    --net=host \
    --privileged=true \
    --device /dev/davinci0 \
    --device /dev/davinci1 \
    --device /dev/davinci2 \
    --device /dev/davinci3 \
    --device /dev/davinci4 \
    --device /dev/davinci5 \
    --device /dev/davinci6 \
    --device /dev/davinci7 \
    --device /dev/davinci8 \
    --device /dev/davinci9 \
    --device /dev/davinci10 \
    --device /dev/davinci11 \
    --device /dev/davinci12 \
    --device /dev/davinci13 \
    --device /dev/davinci14 \
    --device /dev/davinci15 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /etc/hccn.conf:/etc/hccn.conf \
    -v /root/.cache:/root/.cache \
    -it $IMAGE bash

在每个节点上启动 Docker 镜像。

export IMAGE=quay.io/ascend/vllm-ascend:v0.22.1rc1
docker run --rm \
    --name vllm-ascend \
    --shm-size=512g \
    --net=host \
    --privileged=true \
    --device /dev/davinci0 \
    --device /dev/davinci1 \
    --device /dev/davinci2 \
    --device /dev/davinci3 \
    --device /dev/davinci4 \
    --device /dev/davinci5 \
    --device /dev/davinci6 \
    --device /dev/davinci7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /etc/hccn.conf:/etc/hccn.conf \
    -v /root/.cache:/root/.cache \
    -it $IMAGE bash

启动容器后，运行以下命令验证安装：

docker ps | grep vllm-ascend

预期结果：容器被列出且状态为 Up。您还可以在容器内验证 vllm-ascend 版本：

pip show vllm-ascend

预期结果：显示版本信息，与拉取的镜像版本一致。

4.2 源码安装¶

如果您不想使用 Docker 镜像，可以从源码构建。首先从源码安装 vLLM：

克隆并安装 vLLM：

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

克隆并安装 vLLM-Ascend 仓库：

git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e .

安装验证：

pip show vllm vllm-ascend

预期结果：显示两个包的版本信息，确认安装成功。

Note

如果部署多节点环境，请在每个节点上设置环境。

更多详情，请参考安装指南。

5 在线服务部署¶

5.1 单节点在线部署¶

单节点部署在同一节点上运行 Prefill 和 Decode。以下 W8A8 示例适用于在 1 个 Atlas 800 A3 (64G x 16) 节点上进行功能验证和纯图像在线服务。W8A8 版本需要 --quantization ascend。

运行以下脚本在一个 A3 节点上启动在线服务：

#!/bin/sh

# Load model from ModelScope to speed up download.
export VLLM_USE_MODELSCOPE=True

# Reduce memory fragmentation and avoid out-of-memory errors.
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_BUFFSIZE=1536
export OMP_NUM_THREADS=1
export OMP_PROC_BIND=false
export TASK_QUEUE_ENABLE=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export VLLM_ASCEND_BALANCE_SCHEDULING=1

vllm serve Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --host 0.0.0.0 \
  --port 8000 \
  --served-model-name qwen3-vl-235b \
  --quantization ascend \
  --data-parallel-size 4 \
  --tensor-parallel-size 4 \
  --enable-expert-parallel \
  --seed 1024 \
  --max-num-seqs 32 \
  --max-model-len 32768 \
  --max-num-batched-tokens 16384 \
  --trust-remote-code \
  --gpu-memory-utilization 0.92 \
  --no-enable-prefix-caching \
  --mm-processor-cache-gb 0 \
  --limit-mm-per-prompt.image 1 \
  --limit-mm-per-prompt.video 0 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY","cudagraph_capture_sizes":[1,2,4,8,16,24,32]}'

常见问题提示：如果遇到问题，请参考公共 FAQ 进行故障排除。

关键参数：

--data-parallel-size 4 和 --tensor-parallel-size 4 将一个 A3 节点上的 16 个 NPU 映射为四个 DP 组，每个组内使用 TP4。
--enable-expert-parallel 为 MoE 层启用专家并行。不要在同一个 MoE 层中混合使用 MoE 张量并行和专家并行。
--max-model-len 是单个请求的最大输入加输出长度。多模态输入会消耗文本 token 和视觉 token，因此仅在拥有足够 KV 缓存时增加此值。
--max-num-seqs 是每个 DP 组调度的最大并发请求数。对于性能测试，请确保 --max-num-seqs * --data-parallel-size 大于或等于测试并发数。
--max-num-batched-tokens 是单个调度步骤中处理的最大 token 数。较大的值可以提高 prefill 效率，但会消耗更多激活内存。
--gpu-memory-utilization 控制 vLLM 可用于计算 KV 缓存容量的 HBM 比例。较高的值会增加 KV 缓存大小，但如果运行时内存高于 profile 运行时的内存，则可能触发 OOM。
--quantization ascend 为 W8A8 模型启用 Ascend 量化。部署 BF16 模型时请移除该选项。
--limit-mm-per-prompt.image 1 和 --limit-mm-per-prompt.video 0 为每个请求预留一张图像的多模态处理能力，并禁用视频输入以节省内存。
--mm-processor-cache-gb 0 禁用多模态处理器缓存。仅当您的工作负载受益于重复使用的媒体预处理且拥有足够的主机内存时，才增加此值。
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' 启用完整的 Decode ACLGraph 重放以减少调度开销。

5.2 使用 MP 的多节点部署（推荐用于 BF16）¶

多节点MP部署在节点间使用vLLM数据并行，在节点内使用张量并行。推荐在2个Atlas 800 A2（64G x 8）节点上部署BF16模型，或用于单个节点HBM空间不足的长上下文验证场景。

假设您有2个Atlas 800 A2节点，并希望跨节点部署Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot。请将nic_name、local_ip和node0_ip替换为您环境中的实际网络接口和IP地址。

在节点0上运行以下脚本。

#!/bin/sh

export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

# Get these values through ifconfig.
# nic_name is the network interface name corresponding to local_ip.
nic_name="xxxx"
local_ip="xxxx"

export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export HCCL_BUFFSIZE=1024
export TASK_QUEUE_ENABLE=1
export HCCL_OP_EXPANSION_MODE="AIV"

vllm serve Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --host 0.0.0.0 \
  --port 8000 \
  --quantization ascend \
  --data-parallel-size 2 \
  --api-server-count 2 \
  --data-parallel-size-local 1 \
  --data-parallel-address $local_ip \
  --data-parallel-rpc-port 13389 \
  --seed 1024 \
  --served-model-name qwen3-vl-235b \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --max-num-seqs 16 \
  --max-model-len 262144 \
  --max-num-batched-tokens 4096 \
  --trust-remote-code \
  --gpu-memory-utilization 0.9 \
  --no-enable-prefix-caching \
  --mm-processor-cache-gb 0 \
  --limit-mm-per-prompt.image 1 \
  --limit-mm-per-prompt.video 0 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --additional-config '{"enable_cpu_binding":true,"enable_flashcomm1":true}'

常见问题提示：如果节点1无法加入服务或HCCL初始化超时，请参考验证多节点通信环境和常见问题解答。确保各节点的网络接口名称、IP地址和RPC端口一致。

在节点1上运行以下脚本。

#!/bin/sh

export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

# Get these values through ifconfig.
# nic_name is the network interface name corresponding to local_ip.
nic_name="xxxx"
local_ip="xxxx"

# The value of node0_ip must be consistent with local_ip on node 0.
node0_ip="xxxx"

export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export HCCL_BUFFSIZE=1024
export TASK_QUEUE_ENABLE=1
export HCCL_OP_EXPANSION_MODE="AIV"

vllm serve Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --host 0.0.0.0 \
  --port 8000 \
  --quantization ascend \
  --headless \
  --data-parallel-size 2 \
  --data-parallel-size-local 1 \
  --data-parallel-start-rank 1 \
  --data-parallel-address $node0_ip \
  --data-parallel-rpc-port 13389 \
  --seed 1024 \
  --tensor-parallel-size 8 \
  --served-model-name qwen3-vl-235b \
  --max-num-seqs 16 \
  --max-model-len 262144 \
  --max-num-batched-tokens 4096 \
  --enable-expert-parallel \
  --trust-remote-code \
  --gpu-memory-utilization 0.9 \
  --no-enable-prefix-caching \
  --mm-processor-cache-gb 0 \
  --limit-mm-per-prompt.image 1 \
  --limit-mm-per-prompt.video 0 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --additional-config '{"enable_cpu_binding":true,"enable_flashcomm1":true}'

如果服务启动成功，节点0上将显示以下信息：

INFO:     Started server process [44610]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Started server process [44611]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

MP部署的关键参数：

--data-parallel-size 是所有节点的全局DP大小。示例中使用2个DP rank。
--data-parallel-size-local 是当前节点上的DP rank数量。示例中每个A2节点有1个本地DP rank。
--data-parallel-start-rank 是当前节点上的起始DP rank。节点0默认从0开始，节点1从1开始。
--data-parallel-address 必须指向主DP节点。节点0使用local_ip，其他节点使用node0_ip。
--data-parallel-rpc-port 是DP RPC端口。所有节点使用相同值，并确保端口可用。
--api-server-count 控制主节点上启动的API服务器进程数量。
--headless 启动一个不暴露API服务器的工作节点。在非主节点上使用。
--tensor-parallel-size 8 将一个TP组映射到每个A2节点上的8个NPU。
HCCL_IF_IP、GLOO_SOCKET_IFNAME、TP_SOCKET_IFNAME和HCCL_SOCKET_IFNAME将HCCL、Gloo和TP通信绑定到所选网络。

5.3 多节点PD分离部署¶

PD分离将Prefill和Decode划分为不同的服务组。Prefill节点处理大型提示块，Decode节点负责token生成，代理在两者之间转发请求。此模式适用于需要分别调整prefill和decode资源比例的生产服务场景。

我们推荐使用Mooncake进行部署。请参考Mooncake了解通用PD分离工作流和请求转发设置。

以下示例匹配已验证的A3双节点拓扑，适用于Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot：

1个Prefill节点：1个Atlas 800 A3（64G x 16），DP2 + TP8 + EP。
1个Decode节点：1个Atlas 800 A3（64G x 16），DP4 + TP4 + EP + 全量decode ACLGraph。

5.3.1 Prefill节点¶

在prefill节点上创建run_p.sh。

#!/bin/bash

export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export HCCL_BUFFSIZE=1024
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export HCCL_OP_EXPANSION_MODE="AIV"
export TASK_QUEUE_ENABLE=1

vllm serve Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --host 0.0.0.0 \
  --port 8080 \
  --quantization ascend \
  --data-parallel-size 2 \
  --data-parallel-size-local 2 \
  --tensor-parallel-size 8 \
  --seed 1024 \
  --served-model-name qwen3-vl-235b \
  --enable-expert-parallel \
  --max-num-seqs 32 \
  --max-model-len 8192 \
  --max-num-batched-tokens 8192 \
  --trust-remote-code \
  --no-enable-prefix-caching \
  --gpu-memory-utilization 0.9 \
  --kv-transfer-config \
  '{"kv_connector":"MooncakeConnectorV1",
    "kv_role":"kv_producer",
    "kv_port":"30000",
    "kv_connector_extra_config":{
      "prefill":{"dp_size":2,"tp_size":8},
      "decode":{"dp_size":4,"tp_size":4}
    }
  }'

常见问题提示：如果prefill服务长时间未就绪，请检查模型路径是否共享、所有16个NPU是否可见以及Mooncake的kv_port是否可用。

5.3.2 Decode节点¶

在decode节点上创建run_d.sh。

#!/bin/bash

export VLLM_USE_MODELSCOPE=True
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export HCCL_BUFFSIZE=1024
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export HCCL_OP_EXPANSION_MODE="AIV"
export TASK_QUEUE_ENABLE=1

vllm serve Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --host 0.0.0.0 \
  --port 8080 \
  --quantization ascend \
  --data-parallel-size 4 \
  --data-parallel-size-local 4 \
  --tensor-parallel-size 4 \
  --seed 1024 \
  --served-model-name qwen3-vl-235b \
  --enable-expert-parallel \
  --max-num-seqs 32 \
  --max-model-len 8192 \
  --max-num-batched-tokens 8192 \
  --trust-remote-code \
  --no-enable-prefix-caching \
  --gpu-memory-utilization 0.9 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --kv-transfer-config \
  '{"kv_connector":"MooncakeConnectorV1",
    "kv_role":"kv_consumer",
    "kv_port":"30200",
    "kv_connector_extra_config":{
      "prefill":{"dp_size":2,"tp_size":8},
      "decode":{"dp_size":4,"tp_size":4}
    }
  }'

PD分离的关键参数：

Prefill使用--data-parallel-size 2、--data-parallel-size-local 2和--tensor-parallel-size 8。
Decode使用--data-parallel-size 4、--data-parallel-size-local 4和--tensor-parallel-size 4。
在此验证拓扑中，两侧的--max-num-batched-tokens均设置为8192。仅在激活内存充足时增加prefill的值。
--kv-transfer-config设置Mooncake连接器。kv_role在prefill上为kv_producer，在decode上为kv_consumer。
kv_connector_extra_config.prefill.dp_size/tp_size和decode.dp_size/tp_size必须与实际全局DP和TP布局匹配。
--no-enable-prefix-caching禁用前缀缓存。对于PD分离，在启用额外缓存功能之前，请先在不使用前缀缓存的情况下验证服务。
建议在decode节点上使用--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'以减少decode调度开销。

常见问题提示：如果遇到问题，请参考公共 FAQ 进行故障排除。

服务验证：

curl http://<server_ip>:<port>/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "qwen3-vl-235b",
        "messages": [
            {
                "role": "user",
                "content": "Who are you?"
            }
        ],
        "max_tokens": 256,
        "temperature": 0
    }'

预期结果：

服务返回HTTP 200 OK，JSON响应中包含choices字段。

6 功能验证¶

服务器启动后，发送请求以验证基本的多模态功能。对于单节点和MP部署，使用节点0上的API端点。对于PD分离，使用Mooncake部署指南中的代理端点。

curl http://<server_ip>:<port>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-vl-235b",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
        {"type": "text", "text": "What is the text in the illustration?"}
      ]}
    ],
    "max_completion_tokens": 100,
    "temperature": 0
  }'

预期结果：HTTP状态为200，JSON响应包含带有生成文本的choices字段，例如类似于TONGYI Qwen的文本。

7 精度评估¶

使用 AISBench¶

详细信息请参考使用 AISBench。
执行后，您可以获取结果。

dataset	version	metric	mode	vllm-api-general-chat
textvqa-lite	-	accuracy	gen	83
aime2024	-	accuracy	gen	93

8 性能评估¶

8.1 使用AISBench¶

详细信息请参考使用AISBench进行性能评估。对于多模态性能，请使用包含图像负载的数据集，例如TextVQA风格的请求，而不是随机的纯文本提示。

8.2 使用vLLM基准测试¶

以Qwen3-VL-235B-A22B-Instruct为例运行性能评估。更多详细信息请参考vLLM基准测试。

有三个 vllm bench 子命令：

latency：基准测试单批次请求的延迟。
serve：基准测试在线服务吞吐量。
throughput：基准测试离线推理吞吐量。

以 serve 为例：

export VLLM_USE_MODELSCOPE=True

vllm bench serve \
  --model Eco-Tech/Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot \
  --served-model-name qwen3-vl-235b \
  --dataset-name random \
  --random-input 200 \
  --num-prompts 200 \
  --request-rate 1 \
  --save-result \
  --result-dir ./

几分钟后，您即可获得性能评估结果。此随机基准测试适用于服务流水线验证；如需评估图像令牌性能，请使用 AISBench 或自定义多模态数据集。

9 性能调优¶

9.1 推荐配置¶

注意：以下配置在特定测试环境中验证通过，仅供参考。最佳配置取决于硬件类型、最大输入/输出长度、图像分辨率、请求并发数、前缀缓存命中率、量化方式以及预填充/解码比例。请根据实际工作负载调整第 9.2 节中的参数。

表 1：场景概览¶

场景	部署模式	*NPU 总数	权重版本	关键考量
功能验证	单节点在线服务	16 个 A3 NPU	W8A8	使用较短的上下文，禁用视频，并设置 `--mm-processor-cache-gb 0` 以降低内存压力。
长上下文	多节点 MP	16 个 A3 NPU	W8A8	在每个节点内使用 TP，跨节点使用 DP。如果发生 OOM，请减少图像数量或上下文长度。
低延迟	1P1D PD 分离	32 个 A3 NPU	W8A8	分离预填充和解码资源，并在解码节点上启用全解码 ACLGraph。

*NPU 总数 表示所有节点使用的 NPU 总数。1 个节点 = 1 台 Atlas 800 A3 服务器（64G × 16 个 NPU）。

表 2：详细节点配置¶

场景	节点角色	NPU 数量	TP	DP	最大序列数	最大模型长度	最大批量令牌数	前缀缓存	主要优化
Functional validation	Single node	16	4	4	32	32768	16384	Off	W8A8, FullGraph, FlashComm1, Fused MC2
Long context	MP node	8 per node	8	1 per node, 2 global	16 per DP	262144	4096	Off	FullGraph, FlashComm1, CPU binding
Low latency	Prefill node	16	8	2	32	8192	8192	Off	Mooncake KV producer, EP
Low latency	Decode node	16	4	4	32	8192	8192	Off	Mooncake KV consumer, FullGraph, EP

完整的启动命令和参数说明，请参考第 5 章中的部署示例。

9.2 调优指南¶

9.2.1 通用调优参考¶

调优方法请参考公共性能调优文档。

详细功能描述请参考功能指南。

9.2.2 推荐调优顺序¶

首先设置部署拓扑。使用单节点部署进行验证，使用 MP 部署进行简单的多节点服务，当预填充和解码需要不同资源比例时使用 PD 分离。
使用 --max-model-len 选择最大上下文长度。多模态请求会消耗文本令牌和视觉令牌的 KV 缓存，因此如果发生 OOM，请降低图像分辨率、图像数量、--max-num-seqs 或上下文长度。
调整多模态限制。使用 --limit-mm-per-prompt.image 和 --limit-mm-per-prompt.video 匹配您的请求形状。对于纯图像服务，使用 --limit-mm-per-prompt.video 0 禁用视频。
调整 --max-num-batched-tokens。较大的值通常能提高预填充吞吐量，但会增加激活内存。解码密集型工作负载通常需要较小的值。
根据服务并发数调整 --max-num-seqs。超过此值的请求将在队列中等待，等待时间会计入 TTFT 和 TPOT。
调整 --gpu-memory-utilization。增加该值以提供更多 KV 缓存，但需为运行时内存波动、图像预处理和专家不平衡预留空间。
调整 ACLGraph 捕获。解码推荐使用 FULL_DECODE_ONLY。如果手动设置 cudagraph_capture_sizes，请包含常见的解码批次大小。

9.3 模型特定优化¶

优化项	启用方式	收益	备注
多模态提示限制	`--limit-mm-per-prompt.image`, `--limit-mm-per-prompt.video`	避免为未使用的媒体类型预留内存。	纯图像服务时禁用视频。
多模态处理器缓存	`--mm-processor-cache-gb`	当重复媒体出现时缓存已处理的媒体特征。	内存受限的验证场景设置为 0。
全解码 ACLGraph	`--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'`	减少算子分发开销，稳定解码性能。	推荐用于解码密集型服务。
FlashComm1	`VLLM_ASCEND_ENABLE_FLASHCOMM1=1` 或 `--additional-config '{"enable_flashcomm1":true}'`	减少大 TP 和高并发场景下的通信开销。	可能对低并发工作负载无帮助。
融合 MC2	`VLLM_ASCEND_ENABLE_FUSED_MC2=1`	启用 MoE 融合算子以提高 MoE 效率。	如果精度或性能下降，请与禁用状态进行比较。
前缀缓存	`--enable-prefix-caching`	改善重复前缀的工作负载。	首先验证 HBM 使用情况。对于 PD，建议从禁用前缀缓存开始。
异步调度	`--async-scheduling`	可提高高并发吞吐量。	对于延迟敏感的工作负载，请禁用并比较。
PD 分离	`--kv-transfer-config`	分离预填充和解码资源。	确保生产者/消费者的 DP 和 TP 大小与实际拓扑匹配。

10 常见问题解答¶

常见环境、安装和通用参数问题，请参考公共常见问题解答。本节仅涵盖 Qwen3-VL-235B-A22B-Instruct 的模型特定问题。

Q1：为什么服务在启动时或刚接受请求后就报告 OOM？¶

现象： 服务在性能分析阶段失败，或启动成功但在真实流量到来时报告 OOM。

原因： Qwen3-VL-235B-A22B-Instruct 对权重、KV 缓存和多模态预处理内存有较高需求。较大的 --max-model-len、--max-num-seqs、--max-num-batched-tokens、高图像分辨率、每个提示中图像过多或较高的 --gpu-memory-utilization 可能导致 HBM 余量不足。

解决方案： 尽可能使用带有 --quantization ascend 的 W8A8 模型，降低 --max-model-len、--max-num-seqs、--max-num-batched-tokens，降低图像/视频限制，或减少 --gpu-memory-utilization。保持 PYTORCH_NPU_ALLOC_CONF=expandable_segments:True。

Q2：为什么多节点 MP 部署在初始化期间会挂起？¶

现象： 一个节点等待其他 rank，HCCL 初始化超时，或 headless 节点退出。

原因： 各节点间的网络接口名称、IP 地址、DP rank 或 RPC 端口不一致。

解决方案： 首先验证多节点通信。确保 HCCL_IF_IP、GLOO_SOCKET_IFNAME、TP_SOCKET_IFNAME 和 HCCL_SOCKET_IFNAME 与所选网卡匹配。确保所有节点使用相同的 --data-parallel-rpc-port，非主节点使用 --headless，并且 --data-parallel-start-rank 不重叠。

Q3：为什么在纯图像示例中禁用了视频？¶

现象： 服务预留的内存超出预期，或者即使请求仅包含图像，启动时也会发生 OOM。

原因： 允许视频输入可能会为长的视觉嵌入和预处理路径预留内存，而这些对于纯图像工作负载是不需要的。

解决方案： 对于纯图像服务，使用 --limit-mm-per-prompt.video 0。仅在工作负载需要时启用视频，并在必要时降低 --max-model-len 或请求并发数。

Q4：为什么启用前缀缓存不能提升性能？¶

现象： 已启用前缀缓存，但吞吐量或延迟没有改善。

原因： 前缀缓存仅在请求共享可重用前缀时才有帮助。随机提示、唯一图像或低缓存命中率可能会增加内存压力而看不到明显收益。

解决方案： 对重复前缀的工作负载启用前缀缓存。对于随机基准数据集、内存受限的长上下文工作负载或 PD 验证，与 --no-enable-prefix-caching 进行比较。

Q5：为什么 PD 分离无法传输 KV 缓存？¶

现象： 请求到达代理或预填充服务，但解码节点不产生输出或报告 KV 传输错误。

原因： Mooncake 连接器端口、生产者/消费者角色或 kv_connector_extra_config 的 DP/TP 大小与实际拓扑不匹配。

解决方案： 检查所有节点上的 kv_role、kv_port 以及预填充/解码的 DP/TP 大小。从第 5.4 节中已验证的拓扑开始，然后一次更改一个维度。