支持的模型#
在此处获取最新信息:vllm-project/vllm-ascend#1608
Legend Description:
✅ = Supported model/feature
🔵 = Experimental supported model/feature
❌ = Not supported model/feature
🟡 = Not tested or verified
纯文本语言模型#
生成模型#
模型 |
支持情况 |
备注 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 (Chunked Prefill) |
自动前缀缓存 |
LoRA |
猜测性解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分段 AclGraph |
全图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
DeepSeek V4 |
🔵 |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
1M |
|||||||
DeepSeek V3/3.1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
240k |
|||||
DeepSeek V3.2 |
🔵 |
Experimental |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
160k |
✅ |
|
DeepSeek R1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
|||||
DeepSeek Distill (Qwen/Llama) |
✅ |
A2/A3 |
||||||||||||||||||
Qwen3 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
✅ |
|||||||
Qwen3-based |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Qwen3-Coder |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||
Qwen3-Moe |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen3-Next |
🔵 |
Experimental |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
|||||||||||
Qwen2.5 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||||
Qwen2 |
✅ |
A2/A3 |
||||||||||||||||||
Qwen2-based |
✅ |
A2/A3 |
||||||||||||||||||
QwQ-32B |
✅ |
A2/A3 |
||||||||||||||||||
Llama2/3/3.1/3.2 |
✅ |
A2/A3 |
||||||||||||||||||
Internlm |
🔵 |
A2/A3 |
||||||||||||||||||
Baichuan |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Baichuan2 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Phi-4-mini |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
MiniCPM |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
MiniCPM3 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Ernie4.5 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Ernie4.5-Moe |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Gemma-2 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Gemma-3 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Phi-3/4 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Mistral/Mistral-Instruct |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
GLM-4.x |
🔵 |
Experimental |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
../../tutorials/GLM4.x.md |
||||||
Kimi-K2-Thinking |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
GLM-4 |
❌ |
|||||||||||||||||||
GLM-4-0414 |
❌ |
|||||||||||||||||||
ChatGLM |
❌ |
|||||||||||||||||||
DeepSeek V2.5 |
🟡 |
需要测试 |
||||||||||||||||||
Mllama |
🟡 |
需要测试 |
||||||||||||||||||
MiniMax-Text |
🟡 |
需要测试 |
池化模型#
模型 |
支持情况 |
备注 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 (Chunked Prefill) |
自动前缀缓存 |
LoRA |
猜测性解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分段 AclGraph |
全图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen3-Embedding |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Qwen3-Reranker |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Molmo |
🔵 |
A2/A3 |
||||||||||||||||||
XLM-RoBERTa-based |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Bert |
🔵 |
Experimental |
A2/A3 |
多模态语言模型#
生成模型#
模型 |
支持情况 |
备注 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 (Chunked Prefill) |
自动前缀缓存 |
LoRA |
猜测性解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分段 AclGraph |
全图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2-VL |
✅ |
A2/A3 |
||||||||||||||||||
Qwen2.5-VL |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
30k |
||||||||
Qwen3-VL |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
|||||||||||||||
Qwen3-VL-MOE |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen3-Omni-30B-A3B-Thinking |
🔵 |
Experimental |
A2/A3 |
✅ |
✅ |
|||||||||||||||
Qwen2.5-Omni |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Qwen3-Omni |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
QVQ |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Qwen2-Audio |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Aria |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
LLaVA-Next |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
LLaVA-Next-Video |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
MiniCPM-V |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Mistral3 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Phi-3-Vision/Phi-3.5-Vision |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Gemma3 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Llama3.2 |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
PaddleOCR-VL |
🔵 |
Experimental |
A2/A3 |
|||||||||||||||||
Llama4 |
❌ |
|||||||||||||||||||
Keye-VL-8B-Preview |
❌ |
|||||||||||||||||||
Florence-2 |
❌ |
|||||||||||||||||||
GLM-4V |
❌ |
|||||||||||||||||||
InternVL2.0/2.5/3.0 |
❌ |
|||||||||||||||||||
Whisper |
❌ |
|||||||||||||||||||
Ultravox |
🟡 |
需要测试 |