功能指南# 本节概述了 vLLM Ascend 中实现的功能。开发者可以参考本指南以了解 vLLM Ascend 的工作原理。 功能指南 在 vLLM Ascend 中的补丁 为模型前向传播准备输入 解耦预填充 专家并行负载均衡器 (EPLB) 多 Token 预测 (MTP) ACL图 KV Cache 池 (KV Cache Pool) 添加自定义 aclnn 算子