支持的功能#
vLLM Ascend 的功能支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,加快支持进度。
你可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。下面是 vLLM Ascend 的功能支持情况:
特性 |
状态 |
下一步 |
|---|---|---|
分块预填充 |
🟢 功能性 |
功能性,详见说明:[分块预填充][cp] |
自动前缀缓存 |
🟢 功能性 |
功能性,详见说明:[自动前缀缓存][apc] |
LoRA |
🟢 功能性 |
功能性,详见说明:[LoRA][lora] |
猜测式解码 |
🟢 功能性 |
基础支持 |
池化 |
🟢 功能性 |
需要持续集成(CI)以适配更多模型; |
编码-解码 |
🟡 计划中 |
该功能需先由 vLLM 支持。 |
多模态 |
🟢 功能性 |
[教程][multimodal],优化和适配更多模型 |
LogProbs |
🟢 功能性 |
需要持续集成(CI) |
提示 logProbs |
🟢 功能性 |
需要持续集成(CI) |
异步输出 |
🟢 功能性 |
需要持续集成(CI) |
束搜索 |
🟢 功能性 |
需要持续集成(CI) |
引导解码 |
🟢 功能性 |
详见说明:[结构化输出指南][guided_decoding] |
张量并行 |
🟢 功能性 |
使 TP 大于4时在图模式下可用。 |
流水线并行 |
🟡 计划中 |
此版本不可用,将在下个版本修复。 |
专家并行 |
🟢 功能性 |
See detailed note: Expert Load Balance (EPLB) |
数据并行 |
🟢 功能性 |
Qwen3 MoE 的数据并行支持。 |
预填充解码拆分 |
🟢 功能性 |
功能性,支持 xPyD。 |
量化 |
🟢 功能性 |
详见说明:[量化指南][qaunt] |
图模式 |
🟢 功能性 |
See detailed note: Graph Mode Guide |
睡眠模式 |
🟢 功能性 |
详见说明:[睡眠模式][sleep] |
🟢 功能性:完全可用,正在持续优化中。
🔵 实验性:实验性支持,接口和功能可能会变化。
🚧 WIP:正在积极开发中,很快将支持。
🟡 计划中:已安排将来实现(其中一些可能已有开放的PR/RFC)。
🔴 NO plan/Deprecated: No plan or deprecated by vLLM.