支持的特性#
vLLM Ascend 的特性支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。
函数调用 (Functional call): https://docs.vllm.ai/en/latest/features/tool_calling/
你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:
特性 |
状态 |
后续计划 |
|---|---|---|
分块预填充 |
🟢 可用 |
功能可用,详见详细说明:[分块预填充][cp] |
自动前缀缓存 |
🟢 可用 |
功能可用,详见详细说明:[vllm-ascend#732][apc] |
LoRA |
🔵 实验性 |
Functional, see detailed note: LoRA |
猜测式解码 |
🟢 可用 |
基础支持 |
池化 (Pooling) |
🔵 实验性 |
需要 CI 以适配更多模型;V1 支持依赖于 vLLM 的支持。 |
Enc-dec (编码-解码) |
🟡 计划中 |
需要 vLLM 首先支持此特性。 |
多模态 |
🟢 可用 |
Multi Modality, optimizing and adapting more models |
LogProbs |
🟢 可用 |
需要 CI |
提示词 logProbs |
🟢 可用 |
需要 CI |
异步输出 |
🟢 可用 |
需要 CI |
束搜索 (Beam search) |
🔵 实验性 |
需要 CI |
引导解码 |
🟢 可用 |
|
张量并行 (TP) |
🟢 可用 |
使 TP >4 在图模式下正常工作。 |
流水线并行 (PP) |
🟢 可用 |
编写官方指南和教程。 |
专家并行 (EP) |
🟢 可用 |
支持动态 EPLB。 |
数据并行 (DP) |
🟢 可用 |
为 Qwen3 MoE 提供数据并行支持。 |
预填充-解码分离 |
🟢 可用 |
功能可用,支持 xPyD。 |
量化 |
🟢 可用 |
W8A8 已可用;正在开发更多量化方法支持 (W4A8 等) |
图模式 |
🟢 可用 |
Functional, see detailed note: Graph Mode |
睡眠模式 |
🟢 可用 |
Functional, see detailed note: Sleep Mode |
上下文并行 (CP) |
🟢 可用 |
Functional, see detailed note: Context Parallel |
🟢 可用:功能完全正常,正在进行持续优化。
🔵 实验性:实验性支持,接口和功能可能会发生变化。
🚧 WIP:正在积极开发中,即将支持。
🟡 计划中:已安排在未来实现(部分可能已有开放的 PR/RFC)。
🔴 无计划/已弃用:暂无计划或已被 vLLM 弃用。