特性指南# 本节提供了 vLLM Ascend 功能的详细使用指南。 特性指南 图模式指南 CPU 绑定 AI QoS特性 量化指南 睡眠模式指南 结构化输出指南 LoRA 适配器指南 专家负载均衡 (EPLB) 网络加载器指南 RFork 指南 多Token预测(MTP) 动态批处理 分离式编码器 Ascend Store 部署指南 KV缓存CPU卸载指南 外部数据并行 大规模专家并行下的分布式 DP 服务端 UCM存储部署指南 细粒度张量并行 层间线性层分片指南 推测解码指南 上下文并行指南 权重预取指南 序列并行 批次不变性 LMCache-Ascend 部署指南 动态分块流水线并行 Flash Attention 3