支持的模型#
在此处获取最新信息:vllm-project/vllm-ascend#1608
图例说明:
✅ = 支持的模型/功能
🔵 = 实验性支持的模型/功能
❌ = 不支持的模型/功能
🟡 = 未测试或未验证
纯文本语言模型#
生成模型#
核心支持的模型#
模型 |
支持情况 |
备注 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 |
自动前缀缓存 |
LoRA |
推测解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分段 AclGraph |
全图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
DeepSeek V3/3.1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
240k |
|||||
DeepSeek V3.2 |
🔵 |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
160k |
✅ |
||
DeepSeek R1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
|||||
Qwen3 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
✅ |
|||||||
Qwen3-Coder |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||
Qwen3-Moe |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen3-Next |
🔵 |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||||
GLM-4.x |
🔵 |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
198k |
||||||
GLM-5 |
🔵 |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
198k |
||||
Kimi-K2-Thinking |
🔵 |
A2/A3 |
||||||||||||||||||
DeepseekOCR2 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
|||||||||||||||
MiniMax-M2.5 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
❌ |
✅ |
✅ |
✅ |
🟡 |
✅ |
✅ |
✅ |
✅ |
✅ |
192k |
🟡 |
||
Qwen2.5-Math-RM-72B |
✅ |
vllm-rm, tensor_parallel_size=4, max_model_len=4096 |
✅ |
A2 |
✅ |
🟡 |
🟡 |
❌ |
🟡 |
✅ |
✅ |
🟡 |
🟡 |
🟡 |
🟡 |
🟡 |
🟡 |
4096 |
🟡 |
扩展兼容模型#
模型 |
支持情况 |
备注 |
支持的硬件 |
|---|---|---|---|
DeepSeek Distill (Qwen/Llama) |
✅ |
A2/A3 |
|
基于 Qwen3 |
✅ |
A2/A3 |
|
Qwen2 |
✅ |
A2/A3 |
|
Qwen2.5 |
✅ |
A2/A3 |
|
基于 Qwen2 |
✅ |
A2/A3 |
|
QwQ-32B |
✅ |
A2/A3 |
|
Llama2/3/3.1/3.2 |
✅ |
A2/A3 |
|
Internlm |
🔵 |
A2/A3 |
|
Baichuan |
🔵 |
A2/A3 |
|
Baichuan2 |
🔵 |
A2/A3 |
|
Phi-4-mini |
🔵 |
A2/A3 |
|
MiniCPM |
🔵 |
A2/A3 |
|
MiniCPM3 |
🔵 |
A2/A3 |
|
Ernie4.5 |
🔵 |
A2/A3 |
|
Ernie4.5-Moe |
🔵 |
A2/A3 |
|
Gemma-2 |
🔵 |
A2/A3 |
|
Gemma-3 |
🔵 |
A2/A3 |
|
Phi-3/4 |
🔵 |
A2/A3 |
|
Mistral/Mistral-Instruct |
🔵 |
A2/A3 |
|
Hy3-preview |
🔵 |
A3 |
|
DeepSeek V2.5 |
🟡 |
需要测试 |
|
Mllama |
🟡 |
需要测试 |
|
MiniMax-Text |
🟡 |
需要测试 |
池化模型#
模型 |
支持情况 |
备注 |
支持的硬件 |
文档 |
|---|---|---|---|---|
Qwen3-Embedding |
🔵 |
A2/A3 |
||
Qwen3-VL-Embedding |
🔵 |
A2/A3 |
||
Qwen3-Reranker |
🔵 |
A2/A3 |
||
Qwen3-VL-Reranker |
🔵 |
A2/A3 |
||
Molmo |
🔵 |
A2/A3 |
||
基于XLM-RoBERTa |
🔵 |
A2/A3 |
||
Bert |
🔵 |
A2/A3 |
||
Qwen2.5-Math-RM-72B |
✅ |
奖励模型,gsm8k_correctness 准确率=0.80 |
A2 |
多模态语言模型#
生成模型#
核心支持的模型#
模型 |
支持情况 |
备注 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 |
自动前缀缓存 |
LoRA |
推测解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分段 AclGraph |
全图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen3-VL |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
|||||||||||||||
Qwen3-VL-MOE |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen3.5-397B-A17B |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
1010000 |
|||||
Qwen3.5-27B |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
1010000 |
|||||
Qwen3-Omni-30B-A3B-Thinking |
🔵 |
A2/A3 |
✅ |
✅ |
扩展兼容模型#
模型 |
支持情况 |
备注 |
支持的硬件 |
|---|---|---|---|
Qwen2-VL |
✅ |
A2/A3 |
|
Qwen3-Omni |
🔵 |
A2/A3 |
|
QVQ |
🔵 |
A2/A3 |
|
Qwen2-Audio |
🔵 |
A2/A3 |
|
Aria |
🔵 |
A2/A3 |
|
LLaVA-Next |
🔵 |
A2/A3 |
|
LLaVA-Next-Video |
🔵 |
A2/A3 |
|
MiniCPM-V |
🔵 |
A2/A3 |
|
Mistral3 |
🔵 |
A2/A3 |
|
Phi-3-Vision/Phi-3.5-Vision |
🔵 |
A2/A3 |
|
Gemma3 |
🔵 |
A2/A3 |
|
Llama3.2 |
🔵 |
A2/A3 |
|
PaddleOCR-VL |
🔵 |
A2/A3 |
|
Llama4 |
❌ |
||
Keye-VL-8B-Preview |
❌ |
||
Florence-2 |
❌ |
||
GLM-4V |
❌ |
||
InternVL2.0/2.5/3.0 |
❌ |
||
Whisper |
❌ |
||
Ultravox |
🟡 |
需要测试 |