支持的功能

支持的功能#

vLLM Ascend 的功能支持原则是:与 vLLM 对齐。我们也在积极与社区合作,以加速支持进度。

函数调用:https://docs.vllm.ai/en/latest/features/tool_calling/

您可以查看 [vLLM V1 引擎的支持状态][v1_user_guide]。以下是 vLLM Ascend 的功能支持状态:

功能

状态

后续计划

分块预填充

🟢 功能可用

功能可用,详见说明:[分块预填充][cp]

自动前缀缓存

🟢 功能可用

功能可用,详见说明:[vllm-ascend#732][apc]

LoRA

🔵 实验性

功能可用,详见说明:[LoRA][LoRA]

推测解码

🟢 功能可用

基础支持

池化

🔵 实验性

需要 CI 以适配更多模型;V1 支持依赖于 vLLM 的支持。

编码器-解码器

🟡 计划中

需要 vLLM 首先支持此功能。

多模态

🟢 功能可用

[多模态][multimodal],正在优化并适配更多模型

LogProbs

🟢 功能可用

需要 CI

提示词 LogProbs

🟢 功能可用

需要 CI

异步输出

🟢 功能可用

需要 CI

束搜索

🔵 实验性

需要 CI

引导解码

🟢 功能可用

vllm-ascend#177

张量并行

🟢 功能可用

使 TP >4 在图模式下正常工作。

流水线并行

🟢 功能可用

编写官方指南和教程。

专家并行

🟢 功能可用

支持动态 EPLB。

数据并行

🟢 功能可用

为 Qwen3 MoE 提供数据并行支持。

预填充-解码分离

🟢 功能可用

功能可用,支持 xPyD。

量化

🟢 功能可用

W8A8 已可用;正在开发更多量化方法支持(如 W4A8 等)

图模式

🟢 功能可用

功能可用,详见说明:[图模式][graph_mode]

睡眠模式

🟢 功能可用

功能可用,详见说明:[睡眠模式][sleep_mode]

上下文并行

🟢 功能可用

功能可用,详见说明:[上下文并行][context_parallel]

  • 🟢 功能可用:完全可运行,正在进行持续优化。

  • 🔵 实验性:实验性支持,接口和功能可能发生变化。

  • 🚧 开发中:正在积极开发,即将支持。

  • 🟡 计划中:已安排在未来实现(部分可能已有开放的 PR/RFC)。

  • 🔴 无计划/已弃用:暂无计划或已被 vLLM 弃用。