设计文档# 本节概述了 vLLM Ascend 中实现的功能。开发者可以参考本指南以了解 vLLM Ascend 的工作原理。 设计文档 vLLM Ascend 中的补丁 CPU 绑定 为模型前向传播准备输入 预填充-解码分离 专家并行负载均衡器(EPLB) ACL 图 KV 缓存池 添加自定义 aclnn 算子 上下文并行(CP) 动态分块流水线并行 (CPP) 量化适配指南 Npugraph_ex