功能支持

功能支持#

vLLM Ascend 的特性支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。

你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:

特性

Status

下一步

分块预填充

🟢 功能性

功能性,详见说明:[分块预填充][cp]

自动前缀缓存

🟢 功能性

可用,请参见详细说明:[vllm-ascend#732][apc]

LoRA

🟢 功能性

[vllm-ascend#396][multilora],[vllm-ascend#893][v1 multilora]

猜测式解码

🟢 功能性

基础支持

池化

🟡 计划中

v0.9.1 版本不支持池化。请使用更高版本。

Enc-dec(编码-解码)

🟡 计划中

vLLM should support this feature first.

多模态

🟢 功能性

[教程][multimodal],优化和适配更多模型

LogProbs

🟢 功能性

需要持续集成(CI)

提示 logProbs

🟢 功能性

需要持续集成(CI)

异步输出

🟢 功能性

需要持续集成(CI)

束搜索

🟢 功能性

需要持续集成(CI)

引导解码

🟢 功能性

vllm-ascend#177

张量并行

🟢 功能性

Make TP >4 work with graph mode

流水线并行

🟢 功能性

Write official guide and tutorial.

专家并行

🟢 功能性

Dynamic EPLB support.

数据并行

🟢 功能性

Data Parallel support for Qwen3 MoE.

预填充 解码 拆分

🟢 功能性

xPyD 在 v1 引擎上可用。

量化

🟢 功能性

W8A8 available; working on more quantization method support(W4A8, etc)

图模式

🔵 实验性

实验性功能,详见说明:[vllm-ascend#767][graph_mode]

睡眠模式

🟢 功能性

  • 🟢 功能性:完全可用,正在持续优化中。

  • 🔵 实验性:实验性支持,接口和功能可能会发生变化。

  • 🚧 WIP:正在积极开发中,很快将会支持。

  • 🟡 计划中:已安排将来实现(其中一些可能已有开放的PR/RFC)。

  • 🔴 NO plan / Deprecated: No plan or deprecated by vLLM.