支持的功能

支持的功能#

vLLM Ascend 的功能支持原则是:与 vLLM 保持一致。我们也在积极与社区合作,以加快支持进度。

函数调用:https://docs.vllm.ai/en/latest/features/tool_calling/

您可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。以下是 vLLM Ascend 的功能支持状态:

功能

状态

后续步骤

分块预填充

🟢 功能完备

功能完备,详见说明:[分块预填充][cp]

自动前缀缓存

🟢 功能完备

功能完备,详见说明:[vllm-ascend#732][apc]

LoRA

🔵 实验性

功能完备,详见说明:[LoRA][LoRA]

推测解码

🟢 功能完备

基础支持

池化

🔵 实验性

需要 CI 以适配更多模型;V1 支持依赖于 vLLM 的支持。

编码器-解码器

🟡 计划中

vLLM 需要首先支持此功能。

多模态

🟢 功能完备

[多模态][multimodal],优化和适配更多模型

LogProbs

🟢 功能完备

需要 CI

提示词 LogProbs

🟢 功能完备

需要 CI

异步输出

🟢 功能完备

需要 CI

束搜索

🔵 实验性

需要 CI

引导解码

🟢 功能完备

vllm-ascend#177

张量并行

🟢 功能完备

使 TP >4 能在图模式下工作。

流水线并行

🟢 功能完备

编写官方指南和教程。

专家并行

🟢 功能完备

支持动态 EPLB。

数据并行

🟢 功能完备

为 Qwen3 MoE 提供数据并行支持。

预填充解码分离

🟢 功能完备

功能完备,支持 xPyD。

量化

🟢 功能完备

W8A8 已可用;正在开发对更多量化方法(如 W4A8 等)的支持

图模式

🟢 功能完备

功能完备,详见说明:[图模式][graph_mode]

休眠模式

🟢 功能完备

功能完备,详见说明:[休眠模式][sleep_mode]

上下文并行

🟢 功能完备

功能完备,详见说明:[上下文并行][context_parallel]

  • 🟢 功能完备:完全可用,正在持续优化中。

  • 🔵 实验性:实验性支持,接口和功能可能发生变化。

  • 🚧 开发中:正在积极开发,即将支持。

  • 🟡 计划中:计划在未来实现(部分可能已有开放的 PR/RFC)。

  • 🔴 无计划/已弃用:暂无计划或已被 vLLM 弃用。