特性指南# 本节提供了 vLLM Ascend 功能的详细使用指南。 特性指南 图模式指南 CPU 绑定 AI QoS特性 量化指南 睡眠模式指南 结构化输出指南 LoRA 适配器指南 专家负载均衡 (EPLB) Netloader 指南 RFork 指南 动态批处理 分离式编码器 KV 缓存池(Ascend Store)部署指南 逐层KV池 KV缓存CPU卸载指南 外部数据并行 大规模专家并行下的分布式 DP 服务端 UCM存储部署指南 细粒度张量并行 层间线性层分片指南 推测解码指南 上下文并行指南 权重预取指南 序列并行 批次不变性 LMCache-Ascend 部署指南 动态分块流水线并行 Flash Attention 3