支持的功能

支持的功能#

vLLM Ascend 的功能支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。

你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:

特性

状态

下一步

分块预填充

🟢 功能性

功能性,详见说明:[分块预填充][cp]

自动前缀缓存

🟢 功能性

功能性,详见说明:[自动前缀缓存][apc]

LoRA

🟢 功能性

功能性,详见说明:[LoRA][lora]

猜测式解码

🟢 功能性

基础支持

池化

🟢 功能性

需要持续集成(CI)以适配更多模型;

编码-解码

🟡 计划中

该功能需先由 vLLM 支持。

多模态

🟢 功能性

[教程][multimodal],优化和适配更多模型

LogProbs

🟢 功能性

需要持续集成(CI)

提示 logProbs

🟢 功能性

需要持续集成(CI)

异步输出

🟢 功能性

需要持续集成(CI)

束搜索

🟢 功能性

需要持续集成(CI)

引导解码

🟢 功能性

详见说明:[结构化输出指南][guided_decoding]

张量并行

🟢 功能性

使 TP 大于4时在图模式下可用。

流水线并行

🟡 计划中

此版本不可用,将在下个版本修复。

专家并行

🟢 功能性

See detailed note: Expert Load Balance (EPLB)

数据并行

🟢 功能性

Qwen3 MoE 的数据并行支持。

预填充解码拆分

🟢 功能性

功能性,支持 xPyD。

量化

🟢 功能性

详见说明:[量化指南][qaunt]

图模式

🟢 功能性

See detailed note: Graph Mode Guide

睡眠模式

🟢 功能性

详见说明:[睡眠模式][sleep]

  • 🟢 功能性:完全可用,正在持续优化中。

  • 🔵 实验性:实验性支持,接口和功能可能会变化。

  • 🚧 WIP:正在积极开发中,很快将支持。

  • 🟡 计划中:已安排将来实现(其中一些可能已有开放的PR/RFC)。

  • 🔴 NO plan/Deprecated: No plan or deprecated by vLLM.