特性指南#
本节提供了 vLLM Ascend 功能的详细使用指南。
特性指南
- 图模式指南
- CPU 绑定
- AI QoS特性
- 量化指南
- 睡眠模式指南
- 结构化输出指南
- LoRA 适配器指南
- Expert Parallelism Load Balancer (EPLB)
- Netloader 指南
- RFork 指南
- 动态批处理
- 分离式编码器
- KV 缓存池(Ascend Store)部署指南
- KV缓存CPU卸载指南
- 外部数据并行
- 大规模专家并行下的分布式 DP 服务端
- UCM存储部署指南
- 细粒度张量并行
- 层间线性层分片指南
- 推测解码指南
- 上下文并行指南
- 权重预取指南
- 序列并行
- 批次不变性
- LMCache-Ascend 部署指南
- 动态分块流水线并行
- Flash Attention 3