功能支持#
vLLM Ascend 的特性支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。
你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:
特性 |
Status |
下一步 |
|---|---|---|
分块预填充 |
🟢 功能性 |
功能性,详见说明:[分块预填充][cp] |
自动前缀缓存 |
🟢 功能性 |
可用,请参见详细说明:[vllm-ascend#732][apc] |
LoRA |
🟢 功能性 |
[vllm-ascend#396][multilora],[vllm-ascend#893][v1 multilora] |
猜测式解码 |
🟢 功能性 |
基础支持 |
池化 |
🟡 计划中 |
v0.9.1 版本不支持池化。请使用更高版本。 |
Enc-dec(编码-解码) |
🟡 计划中 |
vLLM should support this feature first. |
多模态 |
🟢 功能性 |
[教程][multimodal],优化和适配更多模型 |
LogProbs |
🟢 功能性 |
需要持续集成(CI) |
提示 logProbs |
🟢 功能性 |
需要持续集成(CI) |
异步输出 |
🟢 功能性 |
需要持续集成(CI) |
束搜索 |
🟢 功能性 |
需要持续集成(CI) |
引导解码 |
🟢 功能性 |
|
张量并行 |
🟢 功能性 |
Make TP >4 work with graph mode |
流水线并行 |
🟢 功能性 |
Write official guide and tutorial. |
专家并行 |
🟢 功能性 |
Dynamic EPLB support. |
数据并行 |
🟢 功能性 |
Data Parallel support for Qwen3 MoE. |
预填充 解码 拆分 |
🟢 功能性 |
xPyD 在 v1 引擎上可用。 |
量化 |
🟢 功能性 |
W8A8 available; working on more quantization method support(W4A8, etc) |
图模式 |
🔵 实验性 |
实验性功能,详见说明:[vllm-ascend#767][graph_mode] |
睡眠模式 |
🟢 功能性 |
🟢 功能性:完全可用,正在持续优化中。
🔵 实验性:实验性支持,接口和功能可能会发生变化。
🚧 WIP:正在积极开发中,很快将会支持。
🟡 计划中:已安排将来实现(其中一些可能已有开放的PR/RFC)。
🔴 NO plan / Deprecated: No plan or deprecated by vLLM.