支持的特性

支持的特性#

vLLM Ascend 的特性支持原则是：与 vLLM 保持一致。我们也在积极与社区合作，加快支持进度。

你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况：

特性	状态	后续计划
分块预填充	🟢 可用	功能可用，详见详细说明：[分块预填充][cp]
自动前缀缓存	🟢 可用	功能可用，详见详细说明：[vllm-ascend#732][apc]
LoRA	🔵 实验性	Functional, see detailed note: LoRA
猜测式解码	🟢 可用	基础支持
池化 (Pooling)	🔵 实验性	需要 CI 以适配更多模型；V1 支持依赖于 vLLM 的支持。
Enc-dec (编码-解码)	🟡 计划中	需要 vLLM 首先支持此特性。
多模态	🟢 可用	Multi Modality, optimizing and adapting more models
LogProbs	🟢 可用	需要 CI
提示词 logProbs	🟢 可用	需要 CI
异步输出	🟢 可用	需要 CI
束搜索 (Beam search)	🔵 实验性	需要 CI
引导解码	🟢 可用	vllm-ascend#177
张量并行 (TP)	🟢 可用	使 TP >4 在图模式下正常工作。
流水线并行 (PP)	🟢 可用	编写官方指南和教程。
专家并行 (EP)	🟢 可用	支持动态 EPLB。
数据并行 (DP)	🟢 可用	为 Qwen3 MoE 提供数据并行支持。
预填充-解码分离	🟢 可用	功能可用，支持 xPyD。
量化	🟢 可用	W8A8 已可用；正在开发更多量化方法支持 (W4A8 等)
图模式	🟢 可用	Functional, see detailed note: Graph Mode
睡眠模式	🟢 可用	Functional, see detailed note: Sleep Mode
上下文并行 (CP)	🟢 可用	Functional, see detailed note: Context Parallel