设计文档# 本节概述了 vLLM Ascend 中实现的功能。开发者可以参考本指南以了解 vLLM Ascend 的工作原理。 设计文档 vLLM Ascend 中的补丁 CPU 绑定 为模型前向传播准备输入 解耦式预填充 专家并行负载均衡器 (EPLB) ACL 图 KV 缓存池 添加自定义aclnn算子 上下文并行 (CP) 量化适配指南 Npugraph_ex