跳转至主要内容
回到顶部
Ctrl
+
K
You are viewing the latest stable docs.
搜索
Ctrl
+
K
快速开始
快速入门
安装
教程
Qwen2.5-Omni-7B
Qwen2.5-7B
Qwen3-Dense (Qwen3-0.6B/8B/32B)
Qwen-VL-Dense (Qwen2.5VL-3B/7B, Qwen3-VL-2B/4B/8B/32B)
Qwen3-30B-A3B
Qwen3-235B-A22B
Qwen3-VL-235B-A22B-Instruct
Qwen3-Coder-30B-A3B
Qwen3-Embedding
Qwen3-Reranker
Qwen3-8B-W4A8
Qwen3-32B-W4A4
Qwen3-Next
Qwen3-Omni-30B-A3B-Thinking
DeepSeek-V3/3.1
DeepSeek-V3.2
DeepSeek-R1
DeepSeek-V4
GLM-4.5/4.6/4.7
Kimi-K2-Thinking
PaddleOCR-VL
PD-Colocated with Mooncake Multi-Instance
Prefill-Decode Disaggregation (Qwen2.5-VL)
Prefill-Decode Disaggregation (Deepseek)
Long-Sequence Context Parallel (Qwen3-235B-A22B)
长序列上下文并行(Deepseek)
Ray分布式部署(Qwen3-235B-A22B)
Atlas 300I
常见问题
用户指南
特性与模型
支持的模型
支持的特性
配置指南
环境变量
附加配置
功能指南
图模式
量化指南
睡眠模式
结构化输出
LoRA适配器
专家负载均衡
网络加载器
多Token预测(MTP)
动态批处理
Ascend Store部署
外部数据并行
大规模专家并行的DP分布式部署
UCM增强的前缀缓存部署
细粒度张量并行
层间线性层分片
推测解码
上下文并行
部署指南
使用 Volcano Kthena
版本说明
开发者指南
贡献指南
测试指南
多节点测试
功能指南
vLLM Ascend补丁说明
模型前向计算输入准备
解耦式预填充
专家并行负载均衡器(EPLB)
ACL 图
KV缓存池
添加自定义 aclnn 算子
上下文并行 (CP)
量化适配
准确性
使用 EvalScope
使用 lm-eval
使用 AISBench
使用 OpenCompass
性能与调试
性能基准测试
执行时长分析
优化与调优
服务性能分析指南
MSProbe 调试指南
社区
管理
维护者和贡献者
版本管理策略
用户案例
LLaMA-Factory
Repository
Suggest edit
.md
.pdf
配置指南
配置指南
#
本节提供了 vLLM Ascend 的详细配置指南。
配置指南
环境变量
附加配置