支持的模型#

在此处获取最新信息:vllm-project/vllm-ascend#1608

Legend Description:

  • ✅ = Supported model/feature

  • 🔵 = Experimental supported model/feature

  • ❌ = Not supported model/feature

  • 🟡 = Not tested or verified

纯文本语言模型#

生成模型#

模型

支持情况

备注

BF16

支持的硬件

W8A8

分块预填充 (Chunked Prefill)

自动前缀缓存

LoRA

猜测性解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分段 AclGraph

全图 AclGraph

最大模型长度

MLP 权重预取

文档

DeepSeek V4

🔵

A2/A3

1M

DeepSeek-V4

DeepSeek V3/3.1

A2/A3

240k

DeepSeek-V3.1 教程

DeepSeek V3.2

🔵

Experimental

A2/A3

160k

DeepSeek-V3.2 教程

DeepSeek R1

A2/A3

128k

DeepSeek-R1 教程

DeepSeek Distill (Qwen/Llama)

A2/A3

Qwen3

A2/A3

128k

Qwen3-Dense 教程

Qwen3-based

🔵

Experimental

A2/A3

Qwen3-Coder

A2/A3

Qwen3-Coder-30B-A3B 教程

Qwen3-Moe

A2/A3

256k

Qwen3-235B-A22B 教程

Qwen3-Next

🔵

Experimental

A2/A3

Qwen3-Next 教程

Qwen2.5

A2/A3

Qwen2.5-7B 教程

Qwen2

A2/A3

Qwen2-based

A2/A3

QwQ-32B

A2/A3

Llama2/3/3.1/3.2

A2/A3

Internlm

🔵

#1962

A2/A3

Baichuan

🔵

Experimental

A2/A3

Baichuan2

🔵

Experimental

A2/A3

Phi-4-mini

🔵

Experimental

A2/A3

MiniCPM

🔵

Experimental

A2/A3

MiniCPM3

🔵

Experimental

A2/A3

Ernie4.5

🔵

Experimental

A2/A3

Ernie4.5-Moe

🔵

Experimental

A2/A3

Gemma-2

🔵

Experimental

A2/A3

Gemma-3

🔵

Experimental

A2/A3

Phi-3/4

🔵

Experimental

A2/A3

Mistral/Mistral-Instruct

🔵

Experimental

A2/A3

GLM-4.x

🔵

Experimental

A2/A3

128k

../../tutorials/GLM4.x.md

Kimi-K2-Thinking

🔵

Experimental

A2/A3

Kimi-K2-Thinking 教程

GLM-4

#2255

GLM-4-0414

#2258

ChatGLM

#554

DeepSeek V2.5

🟡

需要测试

Mllama

🟡

需要测试

MiniMax-Text

🟡

需要测试

池化模型#

模型

支持情况

备注

BF16

支持的硬件

W8A8

分块预填充 (Chunked Prefill)

自动前缀缓存

LoRA

猜测性解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分段 AclGraph

全图 AclGraph

最大模型长度

MLP 权重预取

文档

Qwen3-Embedding

🔵

Experimental

A2/A3

Qwen3_embedding 教程

Qwen3-Reranker

🔵

Experimental

A2/A3

Qwen3_reranker 教程

Molmo

🔵

1942

A2/A3

XLM-RoBERTa-based

🔵

Experimental

A2/A3

Bert

🔵

Experimental

A2/A3

多模态语言模型#

生成模型#

模型

支持情况

备注

BF16

支持的硬件

W8A8

分块预填充 (Chunked Prefill)

自动前缀缓存

LoRA

猜测性解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分段 AclGraph

全图 AclGraph

最大模型长度

MLP 权重预取

文档

Qwen2-VL

A2/A3

Qwen2.5-VL

A2/A3

30k

Qwen-VL-Dense 教程

Qwen3-VL

A2/A3

Qwen-VL-Dense 教程

Qwen3-VL-MOE

A2/A3

256k

Qwen3-VL-MOE 教程

Qwen3-Omni-30B-A3B-Thinking

🔵

Experimental

A2/A3

Qwen3-Omni-30B-A3B-Thinking 教程

Qwen2.5-Omni

🔵

Experimental

A2/A3

Qwen2.5-Omni 教程

Qwen3-Omni

🔵

Experimental

A2/A3

QVQ

🔵

Experimental

A2/A3

Qwen2-Audio

🔵

Experimental

A2/A3

Aria

🔵

Experimental

A2/A3

LLaVA-Next

🔵

Experimental

A2/A3

LLaVA-Next-Video

🔵

Experimental

A2/A3

MiniCPM-V

🔵

Experimental

A2/A3

Mistral3

🔵

Experimental

A2/A3

Phi-3-Vision/Phi-3.5-Vision

🔵

Experimental

A2/A3

Gemma3

🔵

Experimental

A2/A3

Llama3.2

🔵

Experimental

A2/A3

PaddleOCR-VL

🔵

Experimental

A2/A3

Llama4

1972

Keye-VL-8B-Preview

1963

Florence-2

2259

GLM-4V

2260

InternVL2.0/2.5/3.0
InternVideo2.5/Mono-InternVL

2064

Whisper

2262

Ultravox

🟡

需要测试