支持的特性

支持的特性#

vLLM Ascend 的特性支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。

函数调用 (Functional call): https://docs.vllm.ai/en/latest/features/tool_calling/

你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:

特性

状态

后续计划

分块预填充

🟢 可用

功能可用,详见详细说明:[分块预填充][cp]

自动前缀缓存

🟢 可用

功能可用,详见详细说明:[vllm-ascend#732][apc]

LoRA

🔵 实验性

Functional, see detailed note: LoRA

猜测式解码

🟢 可用

基础支持

池化 (Pooling)

🔵 实验性

需要 CI 以适配更多模型;V1 支持依赖于 vLLM 的支持。

Enc-dec (编码-解码)

🟡 计划中

需要 vLLM 首先支持此特性。

多模态

🟢 可用

Multi Modality, optimizing and adapting more models

LogProbs

🟢 可用

需要 CI

提示词 logProbs

🟢 可用

需要 CI

异步输出

🟢 可用

需要 CI

束搜索 (Beam search)

🔵 实验性

需要 CI

引导解码

🟢 可用

vllm-ascend#177

张量并行 (TP)

🟢 可用

使 TP >4 在图模式下正常工作。

流水线并行 (PP)

🟢 可用

编写官方指南和教程。

专家并行 (EP)

🟢 可用

支持动态 EPLB。

数据并行 (DP)

🟢 可用

为 Qwen3 MoE 提供数据并行支持。

预填充-解码分离

🟢 可用

功能可用,支持 xPyD。

量化

🟢 可用

W8A8 已可用;正在开发更多量化方法支持 (W4A8 等)

图模式

🟢 可用

Functional, see detailed note: Graph Mode

睡眠模式

🟢 可用

Functional, see detailed note: Sleep Mode

上下文并行 (CP)

🟢 可用

Functional, see detailed note: Context Parallel

  • 🟢 可用:功能完全正常,正在进行持续优化。

  • 🔵 实验性:实验性支持,接口和功能可能会发生变化。

  • 🚧 WIP:正在积极开发中,即将支持。

  • 🟡 计划中:已安排在未来实现(部分可能已有开放的 PR/RFC)。

  • 🔴 无计划/已弃用:暂无计划或已被 vLLM 弃用。