Supported Models#

Get the latest info here: vllm-project/vllm-ascend#1608

Legend Description:

  • βœ… = Supported model/feature

  • πŸ”΅ = Experimental supported model/feature

  • ❌ = Not supported model/feature

  • 🟑 = Not tested or verified

Text-Only Language Models#

Generative Models#

Core Supported Models#

Model

Support

Note

BF16

Supported Hardware

W8A8

Chunked Prefill

Automatic Prefix Cache

LoRA

Speculative Decoding

Async Scheduling

Tensor Parallel

Pipeline Parallel

Expert Parallel

Data Parallel

Prefill-decode Disaggregation

Piecewise AclGraph

Fullgraph AclGraph

max-model-len

MLP Weight Prefetch

Doc

DeepSeek V4-Flash

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

1M

DeepSeek-V4

DeepSeek V4-Pro

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

1M

DeepSeek-V4

DeepSeek V3/3.1

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

240k

DeepSeek-V3.1

DeepSeek V3.2

πŸ”΅

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

160k

βœ…

DeepSeek-V3.2

DeepSeek R1

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

128k

DeepSeek-R1

Qwen3

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

128k

βœ…

Qwen3-Dense

Qwen3-Coder

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

Qwen3-Coder-30B-A3B tutorial

Qwen3-Moe

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

256k

Qwen3-235B-A22B

Qwen3-Next

πŸ”΅

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

Qwen3-Next

GLM-4.x

πŸ”΅

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

198k

GLM-4.x

GLM-5/5.1

πŸ”΅

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

200k

GLM-5

GLM-5.2

πŸ”΅

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

200k

GLM-5

Kimi-K2-Thinking

πŸ”΅

A2/A3

Kimi-K2-Thinking

DeepseekOCR2

βœ…

βœ…

A2/A3

βœ…

βœ…

DeepSeekOCR2

MiniMax-M2.5

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

❌

βœ…

βœ…

βœ…

🟑

βœ…

βœ…

βœ…

βœ…

βœ…

192k

🟑

MiniMax-M2.5

Qwen2.5-Math-RM-72B

βœ…

vllm-rm, tensor_parallel_size=4, max_model_len=4096

βœ…

A2

βœ…

🟑

🟑

❌

🟑

βœ…

βœ…

🟑

🟑

🟑

🟑

🟑

🟑

4096

🟑

Qwen2.5-Math-RM-72B

Extended Compatible Models#

Model

Support

Note

Supported Hardware

DeepSeek Distill (Qwen/Llama)

βœ…

A2/A3

Qwen3-based

βœ…

A2/A3

Qwen2

βœ…

A2/A3

Qwen2.5

βœ…

A2/A3

Qwen2-based

βœ…

A2/A3

QwQ-32B

βœ…

A2/A3

Llama2/3/3.1/3.2

βœ…

A2/A3

Internlm

πŸ”΅

#1962

A2/A3

Baichuan

πŸ”΅

A2/A3

Baichuan2

πŸ”΅

A2/A3

Phi-4-mini

πŸ”΅

A2/A3

MiniCPM

πŸ”΅

A2/A3

MiniCPM3

πŸ”΅

A2/A3

Ernie4.5

πŸ”΅

A2/A3

Ernie4.5-Moe

πŸ”΅

A2/A3

Gemma-2

πŸ”΅

A2/A3

Gemma-3

πŸ”΅

A2/A3

Phi-3/4

πŸ”΅

A2/A3

Mistral/Mistral-Instruct

πŸ”΅

A2/A3

Hy3-preview

πŸ”΅

A3

DeepSeek V2.5

🟑

Need test

Mllama

🟑

Need test

MiniMax-Text

🟑

Need test

Pooling Models#

Model

Support

Note

Supported Hardware

Doc

Qwen3-Embedding

πŸ”΅

A2/A3

Qwen3_embedding

Qwen3-VL-Embedding

πŸ”΅

A2/A3

Qwen3-VL-Embedding

Qwen3-Reranker

πŸ”΅

A2/A3

Qwen3_reranker

Qwen3-VL-Reranker

πŸ”΅

A2/A3

Qwen3-VL-Reranker

Molmo

πŸ”΅

1942

A2/A3

XLM-RoBERTa-based

πŸ”΅

A2/A3

Bert

πŸ”΅

A2/A3

Qwen2.5-Math-RM-72B

βœ…

Reward Model, gsm8k_correctness accuracy=0.80

A2

Qwen2.5-Math-RM-72B

Multimodal Language Models#

Generative Models#

Core Supported Models#

Model

Support

Note

BF16

Supported Hardware

W8A8

Chunked Prefill

Automatic Prefix Cache

LoRA

Speculative Decoding

Async Scheduling

Tensor Parallel

Pipeline Parallel

Expert Parallel

Data Parallel

Prefill-decode Disaggregation

Piecewise AclGraph

Fullgraph AclGraph

max-model-len

MLP Weight Prefetch

Doc

Qwen3-VL

βœ…

A2/A3

βœ…

βœ…

βœ…

Qwen-VL-Dense

Qwen3-VL-MOE

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

256k

Qwen3-VL-MOE

Qwen3.5-397B-A17B

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

1010000

Qwen3.5-397B-A17B

Qwen3.5-27B

βœ…

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

1010000

Qwen3.5-27B

Qwen3-Omni-30B-A3B-Thinking

πŸ”΅

A2/A3

βœ…

βœ…

Qwen3-Omni-30B-A3B-Thinking

Kimi-K2.5/Kimi-K2.6

βœ…

A2/A3

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

βœ…

262144

Kimi-K2.5/Kimi-K2.6

Extended Compatible Models#

Model

Support

Note

Supported Hardware

Qwen2-VL

βœ…

A2/A3

Qwen3-Omni

πŸ”΅

A2/A3

QVQ

πŸ”΅

A2/A3

Qwen2-Audio

πŸ”΅

A2/A3

Aria

πŸ”΅

A2/A3

LLaVA-Next

πŸ”΅

A2/A3

LLaVA-Next-Video

πŸ”΅

A2/A3

MiniCPM-V

πŸ”΅

A2/A3

Mistral3

πŸ”΅

A2/A3

Phi-3-Vision/Phi-3.5-Vision

πŸ”΅

A2/A3

Gemma3

πŸ”΅

A2/A3

Llama3.2

πŸ”΅

A2/A3

PaddleOCR-VL

πŸ”΅

A2/A3

Llama4

❌

1972

Keye-VL-8B-Preview

❌

1961

Florence-2

❌

2259

GLM-4V

❌

2260

InternVL2.0/2.5/3.0
InternVideo2.5/Mono-InternVL

❌

2064

Whisper

❌

2262

Ultravox

🟑

Need test