InternVL3.5（InternVL3_5-38B/241B-A28B）¶

1 简介¶

InternVL3.5 是一个新的开源多模态模型系列，在 InternVL 系列的基础上显著提升了通用性、推理能力和推理效率。

InternVL3.5 模型在 vllm-ascend:v0.20.2 中首次获得支持

本文档将展示 InternVL3_5-38B 和 InternVL3_5-241B-A28B 模型的主要验证步骤，包括支持特性、特性配置、环境准备、单节点和多节点部署、精度和性能评估。

2 支持的特性¶

请参考支持的特性获取模型支持的特性矩阵。

请参考特性指南获取特性的配置。

3 环境准备¶

3.1 模型权重¶

需要 1 个 Atlas 800 A3 (64G × 16) 节点：

InternVL3_5-38B-w8a8：需要 1 个 Atlas 800 A3 (64G × 16) 节点下载模型权重
InternVL3_5-241B-A28B-w8a8：需要 1 个 Atlas 800 A3 (64G × 16) 节点下载模型权重

4 安装¶

4.1 Docker 镜像安装¶

您可以直接使用我们的官方 Docker 镜像来运行 InternVL3_5。

export IMAGE=quay.io/ascend/vllm-ascend:v0.22.1rc1-a3
export NAME=vllm-ascend

# Run the container using the defined variables
# Note: If you are running bridge network with docker, please expose available ports for multiple nodes communication in advance
docker run --rm \
--name $NAME \
--net=host \
--shm-size=1g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci8 \
--device /dev/davinci9 \
--device /dev/davinci10 \
--device /dev/davinci11 \
--device /dev/davinci12 \
--device /dev/davinci13 \
--device /dev/davinci14 \
--device /dev/davinci15 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-it $IMAGE bash

要验证环境是否安装成功，请参考安装指南。

4.2 源码安装¶

此外，如果您不想使用上述 Docker 镜像，也可以从源码构建所有内容：

从源码安装 vllm-ascend，请参考安装指南。

如果您想部署多节点环境，需要在每个节点上设置环境。

5 在线服务部署¶

5.1 单节点在线部署¶

InternVL3_5-38BInternVL3_5-241B-A28B

量化模型 InternVL3_5-38B-w8a8 可以部署在 1 个 Atlas 800 A3 (64G × 16) 上。

运行以下脚本执行在线推理。

常见问题提示：如果遇到问题，请参考常见问题解答。

echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl -w kernel.sched_migration_cost_ns=50000

export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export TASK_QUEUE_ENABLE=1
export HCCL_OP_EXPANSION_MODE="AIV"
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export VLLM_USE_V1=1
export VLLM_TORCH_PROFILER_WITH_STACK=0
export HCCL_BUFFSIZE=1536

vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/InternVL3_5-38B-w8a8/ \
    --port 2002 \
    --served-model-name internvl3_5 \
    --trust-remote-code \
    --async-scheduling \
    --max-model-len 40960 \
    --max-num-batched-tokens 16384 \
    --tensor-parallel-size 4 \
    --max-num-seqs 32 \
    --gpu-memory-utilization 0.9 \
    --async-scheduling \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY", "cudagraph_capture_sizes":[4,32,64,128,192,256,512]}' \
    --additional-config '{"enable_weight_nz_layout": true, "enable_cpu_binding": true}' \
    --mm-processor-cache-gb 0 \
    --enable-chunked-prefill \
    --safetensors-load-strategy 'prefetch' \
    --allowed-local-media-path "/"

量化模型 InternVL3_5-241B-A28B-w8a8 可以部署在 1 个 Atlas 800 A3 (64G × 16) 上。

运行以下脚本执行在线推理。

常见问题提示：如果遇到问题，请参考常见问题解答。

echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl -w kernel.sched_migration_cost_ns=50000

export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export TASK_QUEUE_ENABLE=1
export HCCL_OP_EXPANSION_MODE="AIV"
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export VLLM_USE_V1=1
export VLLM_TORCH_PROFILER_WITH_STACK=0
export HCCL_BUFFSIZE=1536

vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/InternVL3_5-241B-A28B-w8a8/ \
    --port 2001 \
    --served-model-name internvl3_5 \
    --trust-remote-code \
    --async-scheduling \
    --max-model-len 40960 \
    --max-num-batched-tokens 4096 \
    --tensor-parallel-size 4 \
    --data-parallel-size 2 \
    --max-num-seqs 70 \
    --gpu-memory-utilization 0.9 \
    --async-scheduling \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
    --additional-config '{"enable_weight_nz_layout": true, "enable_cpu_binding": true}' \
    --mm-processor-cache-gb 0 \
    --enable-chunked-prefill \
    --enable-expert-parallel \
    --safetensors-load-strategy 'prefetch' \
    --allowed-local-media-path "/"

注意：

一些用于优化的配置如下所示：

VLLM_ASCEND_ENABLE_FLASHCOMM1：启用 FlashComm 优化以减少 prefill 节点上的通信和计算开销。启用 FlashComm 后，layer_sharding 列表不能包含 o_proj 作为元素。
VLLM_ASCEND_ENABLE_FUSED_MC2：启用 dispatch_ffn_combine 融合算子。

有关上述环境变量的进一步解释和限制，请参考以下 Python 文件：envs.py

6 功能验证¶

服务器启动后，您可以使用输入提示查询模型：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "internvl3_5",
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/tiger.jpeg"}},
        {"type": "text", "text": "What is the text in the illustration?"}
    ]}
    ]
    }'

预期结果：

{"id":"chatcmpl-d3270d4a16cb4b98936f71ee3016451f","object":"chat.completion","created":1764924127,"model":"internvl3_5","choices":[{"index":0,"message":{"role":"assistant","content":"The text in the illustration is: **a tiger**","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning_content":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":107,"total_tokens":123,"completion_tokens":16,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

InternVL3.5（InternVL3_5-38B/241B-A28B）¶

1 简介¶

2 支持的特性¶

3 环境准备¶

3.1 模型权重¶

4 安装¶

4.1 Docker 镜像安装¶

4.2 源码安装¶

5 在线服务部署¶

5.1 单节点在线部署¶

6 功能验证¶

7 精度评估¶

7.1 使用 AISBench¶

8 性能¶

8.1 使用 AISBench¶

8.2 使用 vLLM Benchmark¶

9 常见问题解答¶