版本说明#
v0.18.0 - 2026年04月22日#
我们很高兴地宣布 vLLM Ascend v0.18.0 版本发布。这是 v0.18.0 的正式版本。请按照官方文档开始使用。
亮点#
模型支持
Kimi-K2.x 模型支持:[实验性]新增对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755
Minimax-m2.x 模型支持:[实验性]新增对 Minimax-m2.x 模型的支持,支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714
GLM5 支持:[实验性]无需任何代码修改即可支持 GLM5 模型!
Qwen3.x 支持:[实验性]无需任何代码修改即可支持 Qwen3.x 模型!
DeepseekOCR 支持:[实验性]新增对 DeepseekOCR 模型的支持,并优化了
RelPosAttention和CustomQwen2Decoder。@Wangbei25 #7737
核心功能
EPLB(专家并行负载均衡):EPLB 经过大量错误修复后更加稳定,性能也得到提升。EPLB 现在适用于大多数场景,推荐使用。#6528 #7344 #7890 #6477
ACLGraph 增强:ACLGraph 现在支持为多步草稿捕获单个合并图,大幅减少了多步推测解码场景中的主机瓶颈!#5553 #5940
KV 池化:增强的 KV 池通过 Mooncake 连接器现在支持稀疏注意力,新增 LMCacheAscendConnector 作为 Ascend 的 KV 缓存池化解决方案,支持 HIXL 互联的 FabricMem 模式,支持 yuanrong 作为 AscendStoreConnector 的后端,并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前版本相比,KV 池化在 TTFT 上有巨大的性能优化!#6339 #6882 #6806 #6869 #7032
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
RL(强化学习):[实验性]RL 增强,通过 AscendC 和 triton op 实现了 batch invariant 功能,并新增了路由重放功能。#6590 #6696
CPU 绑定默认启用:启用了仅 ARM CPU 绑定,采用全局切片 A3 策略,提高了主机绑定场景中的推理吞吐量。#6686
新功能#
硬件与算子支持#
首次支持 310P,性能大幅优化!:
自定义算子: 新增了多个自定义算子,包括:
为 Qwen3-Next 添加了 AscendC casual_conv1d_fn 算子。#6661
添加了 Ascend Ops recurrent_gated_delta_rule 算子。#6725
为 MoE 模型添加了 GMM 自定义算子。#7010
优化 split_qkv_rmsnorm_rope 算子。#6827
Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366
优化了
DispatchFFNCombine内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707重构并优化 CausalConv1d。#7495
性能#
Qwen3.x 性能:[实验性]通过支持全图模式、PD 分离、mamba prefill prefix-caching 和 flashcomm1,预构建 chunk 元数据以减少主机-设备同步开销,以及多项算子性能优化(包括
chunk_gated_delta_rule、chunk_fwd_kernel_o、solve_tril、recompute_w_u_fwd_kernel、split_qkv_rmsnorm_mrope等),优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368Kimi-K2.x 性能:[实验性]通过支持 eagle3 和 flashcomm1,并减少 d2h 开销,优化了 Kimi-K2.x 性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521
Qwen3-VL 性能:Qwen3-VL 通过 Flash Comm V1 和
qkv_rmsnorm_mrope支持获得更强的多模态算子能力,通过 aclnn BatchMatMulV2 使卷积计算加速 2.7 倍,支持 EAGLE 推测解码。#7893 #7852 #7017 #6327Qwen3-Omni 性能:Qwen3-Omni 量化适配与优化现已可用。#6828
DeepSeek-V3.2/GLM5 性能:性能优化,支持 W8A8C8 量化,并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610
GLM4.7-Flash 性能:为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492
依赖项#
vLLM:升级至 0.18.0 并停止支持 0.17.0。
CANN:升级至 8.5.1。注意: AscendStoreConnector 的 FabricMem 模式、310P 设备支持和 Qwen3-Omni 模型需要将 CANN 版本升级至 9.0.0,如需这些功能,请手动升级。
torch-npu:因已知问题升级至 2.9.0.post1+git4c901a4。此版本无法默认安装,请手动升级。可从以下链接获取安装包:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。注意: 如果 CANN 已升级至 9.0.0 版本,请同步将 torch-npu 版本升级至 2.9.0.post2。
triton-ascend:因已知问题升级至 3.2.0.dev20260322。此版本无法默认安装,请手动升级。可从以下链接获取安装包:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/triton_ascend-3.2.0.dev20260322-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_27_${ARCH}.manylinux_2_28_${ARCH}.whl。注意: 如果 CANN 已升级至 9.0.0 版本,请同步将 triton-ascend 版本升级至 3.2.1。
Transformers:升级至 >= 4.57.4。
Mooncake:升级至 3.9.0。
${PYTHON_TAG} 是 Python 版本标签,${ARCH} 是 CPU 架构。
例如:python3.11 和 aarch64,${PYTHON_TAG}=cp311,${ARCH}=aarch64。
弃用与破坏性变更#
文档#
新增 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169
在常见问题解答中添加抢占指导。#8136
更新 Qwen3.5 用户指南。#7934
更新 DeepSeek-V3.2 的文档配置。#7970
清理文档措辞和语法。#8073
刷新 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300
添加了 CPU 绑定的用户/开发者指南。#7045
新增 Memcache 使用指南。#6476
新增后缀推测解码的基准测试教程。#6323
新增 npugraph_ex 介绍文档。#6306
其他#
为捕获模式添加异步通信检查。#8149
修复池化场景间的 KV Pool 冲突,并修复 vLLM v0.18.0 上缺失的 KV 缓存放置。#8101 #7874
通过修正注意力状态处理来修复短提示转发。#8088
恢复
global_bs=0和mc2_mask以支持统一令牌分发,并支持跨节点 RoCE 分层 MC2 通信。#8040修复 Qwen3-VL 的权重映射器错误。#7868
通过从反向映射切换到正向映射,修复了
AscendModelSlimConfig中的量化配置键映射。#7716修复了在 PD 部署中运行 MTP 时,全图模式下对所有 D-Nodes 的支持问题。#5472
分层连接器现在支持重计算调度器。#5900
修复了池化代码问题并更新了使用指南。#6126
NPUWorker Profiler 现在支持 profile_prefix,以提供更好的性能分析体验。#6968
已知问题#
目前,在多 DP 和大令牌数场景(
kv_producer或kv_both)下,不建议使用VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌,这些令牌将被路由到某些专家,导致某些 rank 接收令牌过载,从而引发精度和性能问题。#8320目前,EPLB 不支持
minimax_m2模型和 W4A8 量化。#8341PCP 和 eagle3 叠加时,当预填充请求的调度令牌数小于
1 + num_speculative_tokens时,可能会产生错误,导致该预填充请求被当作解码请求处理,从而引发错误。#8402不支持 NPU 软分区 +
CUDAGraphMode.PIECEWISE。#8585Qwen3.x 在 PD 解耦场景下存在精度问题。#8421
目前,x86 架构上存在一个已知问题,该问题已在 CANN 9.0.0 中解决。如果您想在 x86 上部署 vllm-ascend,请手动升级 CANN 版本。#7993
P/D 代理在重计算重试后可能会泄漏资源并掩盖 metaserver 错误。#8852
通过 PD 架构单独部署 GLM5 和 Deepseek V3.2 时,存在空输出或乱码的概率性问题。#8853
对于 PD 分离下 D 节点设置为 TP16 DP2 并行的 GLM 5/5.1,GPQA 精度未达到标准。#8844
v0.17.0rc1 - 2026.03.15#
这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
新功能#
支持从模型文件自动检测量化格式,同时也支持远程模型 ID(例如
org/model-name)。现在不再需要--quantization ascend参数。 #7111从本版本起支持 Qwen3.5。
用于 EPLB 的 FlashLB 算法:支持每步热度收集和多阶段负载均衡,以提高专家并行效率。 #6477
已修复并支持了结合张量并行和
--fully-sharded-loras的 LoRA。 #6650新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。 #6882
现已在 PD-mix 场景下支持 DeepSeek-V3.2 的 W8A8C8 量化。 #7029
[实验性] 现已在 Ascend NPU 上支持 Minimax-m2.5 模型。 #7105
[实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。 #7022
[实验性] 混合模型现已支持前缀缓存。 #7103
性能#
文档#
其他#
修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。 #7139
修复了 310P 上 ngram 图重放的精度错误。#7134
在上游 vLLM 变更后,修复了图模式下的 FIA 填充逻辑。 #7144
修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。 #7209
修复了 rank0 设备上产生的额外进程问题。#7107
图捕获失败现在会正确抛出异常,便于调试。#5644
通过将 torch_npu.npu_recurrent_gated_delta_rule 替换为 fused_recurrent_gated_delta_rule 来修复 Qwen3.5 模型。#7109
修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156
已知问题#
GLM5 需要 transformers==5.2.0,此问题将通过 vllm-project/vllm#30566 解决,不会包含在 v0.17.0 版本中。
由于 TP 权重切分方法变更,Qwen3-Next 存在精度问题。将在下个版本中修复。
在混合模型中,当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关,例如,TP 为 2 时,block_size 调整为 2048,这意味着任何短于 2048 的前缀都不会被缓存。
GLM5 在两节点 PD 混合部署场景中存在一个问题,当并发数超过 8 时推理可能挂起(已在 PR #7235 和 #7290 中修复)。
v0.16.0rc1 - 2026.03.09#
这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
新功能#
硬件与算子支持#
性能#
依赖项#
CANN 已升级至 8.5.1,如果您未使用官方镜像,请记得手动升级。#6897
弃用与破坏性变更#
文档#
其他#
修复 openEuler Dockerfile 错误。#6871
多项错误修复,包括:
修复上游 vLLM 变更引入的 LoRA 精度问题。#6958
修复负载均衡代理服务器中的流式传输 content-type。#6985
修复元数据执行错误:整数除以零取模。#6521
修复 triton rope_siso 实现中的错误。#7082
修复 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064
修复 b020 之后 CANN 版本的编译错误。#7059
修复 GLM4.6V 中的量化配置支持。#7062
修复 _merge_multimodal_embeddings 中的参数顺序错误。#7068
修复 EPLB 中的 fused mc2 错误。#6794
修复计算槽位映射的内核块大小。#7019
修复 P/D 解耦中逐层堆叠 MTP 的错误。#7036
修复 npu_rotary_embedding 的 RoPE 维度。#6880
修复图模式下 GDN 层的精度问题。#6822
修复 PD 解耦中 PCP/DCP 的精度错误。#6876
修复 PD 解耦中的 MTP,为所有 D-Node 提供全图支持。#6948
修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012
修复 MTP 预填充被错误分类为解码的边缘情况。#6835
修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914
修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939
修复 Qwen2.5VL 精度问题。#6975
修复启用静态内核时的 MoE 前向传播错误。#6964
修复 GLM5 模型的 muls_add 融合问题。#6928
修复多模态模型的 GDN 层检测。#6941
修复 300I 非量化模型权重的 nd2nz 错误。#6851
修复 CPU 绑定逻辑。 #6889
修复 Eagle 全图形状捕获问题。 #6846
已知问题#
目前,对于 DeepSeek v3.2,PCP 和 DCP 尚不能与 FlashComm1 功能协同工作,这可能导致服务错误或其他未知错误。
在使用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中,P-Node 在高并发场景(例如,2K/2K tokens 和 512 个并发请求)下进行基准测试时可能出现挂起。
具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个错误,目前有一个临时解决方案可以避免此问题:显式设置
--compilation-config '{"max_cudagraph_capture_size": N}',其中N = max_concurrency × (1 + num_speculative_tokens)。
v0.15.0rc1 - 2026.02.27#
这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
310P MoE 和 W8A8 支持[实验性]:310P 现在支持 MoE 模型、W8A8 量化和 weightNZ 功能,显著扩展了硬件能力。 #6530 #6641 #6454 #6705
Qwen3-VL-MoE EAGLE 支持:为 Qwen3-VL-MoE 模型新增 EAGLE 推测式解码支持。 #6327
Kimi-K2.5 模型支持:新增对 Kimi-K2.5 模型的支持。请注意,vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题,请应用上游
vllm-project/vllm仓库的更改,具体来自拉取请求 #33320 和 #34501。#6755
新功能#
自动检测量化格式:现在可以从模型文件中自动检测量化格式。#6645
GPT-OSS Attention 支持:新增 GPT-OSS attention 实现。#5901
SFA 架构的 DCP 支持:为 SFA 架构新增解码上下文并行(DCP)支持。#6563
Mooncake 分层连接器 PCP 支持:Mooncake 分层连接器现在支持 PCP 功能。#6627
Mooncake 连接器远程 PTP 大小:Mooncake 连接器现在可以获取远程 PTP 大小。#5822
KV 池稀疏注意力:KV 池现在支持稀疏注意力。#6339
基于 AscendC 的 Batch Invariant:使用 AscendC 实现了 batch invariant 特性。#6590
路由重放:新增路由重放功能。#6696
压缩张量 MoE W4A8 动态权重:新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889
GLM4.7-Flash W8A8 量化:为 GLM4.7-Flash 新增 W8A8 量化支持。#6492
DispatchGmmCombineDecode 增强:DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393
RMSNorm 动态量化融合:新增 rmsnorm 动态量化融合 pass。#6274
Worker 健康检查接口:为 worker 新增
check_health接口。#6681
硬件与算子支持#
310P 支持扩展:针对 310P 硬件的多项改进:
仅 ARM CPU 绑定:启用了仅 ARM CPU 绑定,采用 NUMA 均衡的 A3 策略。#6686
Triton Rope 增强:Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
AscendC 融合算子:新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366
Rotary_dim 参数:在 rotary_embedding 中使用 partial rope 时,新增对 rotary_dim 参数的支持。#6581
性能#
多模态 seq_lens CPU 缓存:使用
seq_lensCPU 缓存以避免频繁的 D2H 拷贝,从而提升多模态性能。#6448DispatchFFNCombine 优化:优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707
DeepSeek V3.2 KVCache 优化:优化了 DeepSeek V3.2 的 KV 缓存使用。#6610
MLA/SFA 权重预取:重构了 MLA/SFA 权重预取,使其与 MoE 权重预取保持一致。#6629
MLP 权重预取:重构了 MLP 权重预取,使其与 MoE 模型的预取保持一致。#6442
自适应块大小选择:在 linear_persistent 内核中新增自适应块大小选择功能。#6537
EPLB 内存优化:减少了 EPLB 中用于热度聚合的内存使用。#6729
内存迁移与中断核心绑定:改进了绑定逻辑,增加了内存迁移和中断核心绑定功能。#6785
Triton 稳定性:提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301
依赖项#
Mooncake:升级至 v0.3.8.post1。#6428
弃用与破坏性变更#
文档#
其他#
PD 全图中的 MTP:修复了在 PD 部署中运行 MTP 时,全图模式下对所有 D-Nodes 的支持问题。 #5472
DeepSeekV3.1 准确性:修复了 DeepSeekV3.1 的准确性问题。 #6805
EAGLE 重构:将 MTP 路由至 EAGLE,PCP/DCP+MTP 情况除外。 #6349
推测解码准确性:修复了 vLLM 0.15.0 中的推测接受率问题。 #6606
PCP/DCP 准确性:修复了 PCP/DCP 结合推测解码时的准确性问题。 #6491
KV 池 Mooncake 后端:正确初始化了 mooncake 后端的 head_or_tp_rank。 #6498
分层连接器重计算调度器:分层连接器现在支持重计算调度器。 #5900
Memcache 池:修复了启用 memcache 池时服务启动失败的问题。 #6229
AddRMSNormQuant:修复了 AddRMSNormQuant 未生效的问题。 #6620
池化代码:修复了池化代码问题并更新了使用指南。 #6126
上下文并行:修复并统一了 PD 请求判别逻辑。 #5939
npugraph_ex:修复了重复模式问题,并为 allreduce rmsnorm 融合通道添加了额外检查。 #6513 #6430
RecomputeScheduler:修复了 RecomputeScheduler 与 vLLM v0.14.1 的兼容性问题。 #6286
v0.13.0 - 2026年02月06日#
这是 vLLM Ascend v0.13.0 的最终版本。请按照官方文档开始使用。
亮点#
模型支持
DeepSeek-R1 & DeepSeek-V3.2:[实验性]性能优化和异步调度增强。 #3631 #3900 #3908 #4191 #4805
Qwen3-Next:[实验性]全面支持 Qwen3-Next 系列模型,包括 80B-A3B-Instruct,支持全图模式、MTP、量化(W8A8)、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。 #3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770
LongCat-Flash:[实验性]新增对 LongCat-Flash 模型的支持。 #3833
minimax_m2:[实验性]新增对 minimax_m2 模型的支持。 #5624
Whisper 与交叉注意力:[实验性]新增对交叉注意力和 Whisper 模型的支持。 #5592
池化模型:[实验性]新增对池化模型的支持,包含 PCP 适配,并修复了多个与池化相关的缺陷。 #3122 #4143 #6056 #6057 #6146
PanguUltraMoE:[实验性]新增对 PanguUltraMoE 模型的支持。 #4615
核心功能
上下文并行 (PCP/DCP): [实验性]新增对预填充上下文并行 (PCP) 和解码上下文并行 (DCP) 的全面支持,集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能,欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672
全图模式 (ACLGraph): [实验性]增强了全图模式,支持 GQA,进行了内存优化,统一了 ACLGraph 与 Torchair 之间的逻辑,并提升了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118
多令牌预测 (MTP): 显著改进了 MTP 支持,包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下可用,推荐使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477
PD 解耦: 将 ADXL 引擎设置为解耦预填充的默认后端,提升了性能和稳定性。为 DeepSeek 解码节点增加了 KV NZ 功能支持。#3761 #3950 #5008 #3072
KV 池 & Mooncake: 增强了 KV 池,支持用于 PCP/DCP 的 Mooncake 连接器、多输入后缀,并提升了 Layerwise 连接器的性能。#3690 #3752 #3849 #4183 #5303
EPLB (弹性预填充负载均衡): [实验性]EPLB 现在更加稳定,修复了许多错误。混合放置现已可用。#6086
纯解码模式: 在 full_decode_only 模式下增加了对 Qwen3-Next 和 DeepSeekv32 的支持,并修复了相关错误。#3949 #3986 #3763
Model Runner V2: [实验性]新增对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210
新功能#
硬件与算子支持#
自定义算子: 新增了多个自定义算子,包括:
算子融合: 新增了支持 SP 的 AddRmsnormQuant 融合模式以及用于量化的 inductor 融合。#5077 #4168
MLA/SFA: 将 SFA 重构为 MLA 架构,以提高可维护性。#3769
FIA 算子: 适配了具有 flash decoding 功能的 npu_fused_infer_attention_score。为优化小批量场景下的性能,此注意力算子现已可用。请参阅 常见问题 中的第 22 项以启用它。#4025
CANN 8.5 支持: 在启用 FIA 算子后,为 CANN 8.5 移除了 CP 冗余变量。#6039
性能#
本版本新增了许多自定义算子和 triton 内核以加速模型性能:
DeepSeek 性能: [实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用,提升了 DeepSeek V3.2 的性能。#4805 #2713
FlashComm: 增强了 FlashComm v2 优化,包括 o_shared linear 和通信域修复。#3232 #4188 #4458 #5848
MoE 优化: 针对 MoE 模型优化了 all2allv,并增强了 all-reduce 跳过逻辑。#3738 #5329
注意力优化: 将注意力更新流移出循环,为长序列优化将 BSND 格式转换为 TND 格式,并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390
量化性能:在 Allgather EP 中将量化操作移至 allgather 之前。#3420
层间连接器:[实验性] 提升了层间连接器的性能。#5303
前缀缓存:提升了前缀缓存功能的性能。#4022
Rope 嵌入:使用 Triton 内核优化了 rope embedding,带来了巨大的性能提升。#5918
采样:新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098
多模态:在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以提升性能。#6204
依赖项#
弃用与破坏性变更#
CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。
ProfileExecuteDuration 功能 已弃用。
Ascend 调度器 已被移除。#4623
Torchair 已被移除。#4814
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除,建议使用
VLLM_ASCEND_ENABLE_PREFETCH_MLP替代,因为它们之前总是一起启用。#5272VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270
对于浮点权重的情况,VLLM_ASCEND_ENABLE_NZ 已被禁用,因为我们注意到在某些浮点场景下性能不佳。如果您确定它适用于您的情况,可以将其设置为 2。#4878
additional_config中的 chunked_prefill_for_mla 现已被移除。#5296additional_config中的 dump_config 已重命名为dump_config_path,类型也从dict更改为string。#5296用于嵌入模型的 --task 参数 已弃用。#5257
VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。它将在解码节点默认启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。
文档#
新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南
新增了多个模型的教程,包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型
更新了常见问题解答和配置文档
其他#
OOM 修复:VL 模型上的 OOM 错误现已修复。我们将持续观察。如果您再次遇到 OOM 问题,请提交 issue。#5136
Qwen3-Next-MTP 准确性:修复了 Qwen3-Next-MTP 在批量推理时的准确性错误。#4932
ZMQ 错误修复:修复了 zmq 发送/接收失败的 bug。#5503
权重转置:修复了 RL 场景中的权重转置问题。#5567
Eagle3 SP:使 SP 适配 eagle3。#5562
GLM4.6 MTP:GLM4.6 现在支持使用全图的 MTP。#5460
Flashcomm2 Oshard:Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723
细粒度共享专家重叠:支持细粒度的共享专家重叠。#5962
已知问题#
由于
transformers包的升级,某些模型的量化权重(如qwen2.5vl、gemma3、minimax)可能无法工作。我们将在下一个后续版本中修复此问题。#6302Qwen3-32B在 128K 输入长度场景下的性能可能不佳,建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。Qwen3-235B、Qwen3-480B在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个后续版本中改进。在预填充-解码场景下部署 deepseek3.1 时,请确保解码节点的 tp 大小大于 1。
TP=1无法工作。这将在下一个 CANN 版本中修复。
v0.14.0rc1 - 2026.01.26#
这是 vLLM Ascend v0.14.0 的第一个候选版本。请按照官方文档开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级,请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。
亮点#
新功能#
性能#
CPU 绑定逻辑和性能已得到改进。 #5555
合并 Q/K 拆分以简化 AscendApplyRotaryEmb,从而提升性能。 #5799
新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在
--additional_config中设置fuse_allreduce_rms=True以启用它。 #5034使用 triton kernel 优化 rope embedding,以获得巨大的性能提升。 #5918
支持无 top_k 约束的高级 apply_top_k_top_p。 #6098
在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。 #6204
其他#
model runner v2 支持 triton 惩罚。 #5854
model runner v2 支持 eagle 推测式解码。 #5840
通过默认设置
expandable_segments:True修复多模态推理 OOM 问题。 #5855VLLM_ASCEND_ENABLE_MLAPO默认设置为True。在 PD 部署场景的解码节点上会自动启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。 #5952对于使用 mooncake 分层连接器的 PD 部署,SSL 配置可以设置到 kv_extra_config 中。 #5875
支持
--max-model-len=auto。 #6193
依赖项#
torch-npu 已升级至 2.9.0 #6112
弃用与破坏性变更#
EPLB 配置选项已移至 additional config 中的
eplb_config。旧选项在此版本中已被移除。分析器环境变量,如
VLLM_TORCH_PROFILER_DIR和VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,现已不适用于 vLLM Ascend。请改用 vLLM 的--profiler-config参数。 #5928
已知问题#
如果您有时遇到来自
EngineCore进程的 pickle 错误,请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。
v0.13.0rc2 - 2026.01.24#
这是 vLLM Ascend v0.13.0 的第二个候选版本。在此 rc 版本中,我们修复了大量错误并提升了多个模型的性能。请按照 官方文档 开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。
亮点#
在此版本中,我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误,并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 模型的性能。
新功能#
模型支持#
性能#
此版本中添加了许多自定义算子和 Triton 内核以加速模型性能,例如
RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine等。提升了 Layerwise Connector 的性能 #5303
其他#
基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代版本,将在未来的版本中默认使用。#5210
修复了 ZMQ 发送/接收可能失败的 bug #5503
支持 Qwen3-Next-MTP 使用全图模式 #5477
修复强化学习场景中的权重转置问题 #5567
适配 SP 以支持 Eagle3 #5562
上下文并行(PCP&DCP)支持 MLAPO #5672
GLM4.6 支持使用全图模式的 MTP #5460
Flashcomm2 现在可与 OShard 通用化功能协同工作 #4723
支持为 Eagle 草稿模型设置 tp=1 #5804
Flashcomm1 功能现在可与 Qwen3-VL 协同工作 #5848
支持细粒度共享专家重叠 #5962
依赖项#
CANN 已升级至 8.5.0
torch-npu 已升级至 2.8.0.post1。请注意,此 post 版本默认不会安装,请从 PyPI 镜像手动安装。
triton-ascend 已升级至 3.2.0
弃用与破坏性变更#
v0.13.0rc1 - 2025年12月27日#
这是 vLLM Ascend v0.13.0 的第一个候选版本。在此版本中,我们修复了大量错误,提升了性能并增加了功能支持。欢迎任何反馈以帮助我们改进 vLLM Ascend。请遵循官方文档开始使用。
亮点#
新功能#
性能#
一些通用的性能改进:
其它#
弃用与破坏性变更#
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE已被移除,建议使用VLLM_ASCEND_ENABLE_PREFETCH_MLP替代,因为它们通常一起启用 #5272VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP现已被移除。 #5270对于浮点权重的情况,
VLLM_ASCEND_ENABLE_NZ已被禁用,因为我们注意到在某些浮点场景下性能不佳。如果您确认它适用于您的场景,可以将其设置为2。 #4878additional_config中的chunked_prefill_for_mla现已被移除。 #5296additional_config中的dump_config已重命名为dump_config_path,其类型也从dict更改为string。 #5296
依赖项#
已知问题#
v0.11.0 - 2025年12月16日#
我们很高兴地宣布 vLLM Ascend v0.11.0 版本发布。这是 v0.11.0 的正式版本。请按照 官方文档 开始使用。如有需要,我们未来会考虑发布后续版本。本版本说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。
亮点#
其它#
弃用声明#
LLMdatadist connector 已被弃用,将在 v0.12.0rc1 中移除。
Torchair graph 已被弃用,将在 v0.12.0rc1 中移除。
Ascend scheduler 已被弃用,将在 v0.12.0rc1 中移除。
升级须知#
torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送至 pypi 镜像。因此很难将其添加到自动依赖中。请自行安装。
CANN 已升级至 8.3.rc2。
已知问题#
Qwen3-Next 在此版本中不支持专家并行和 MTP 功能。如果输入过长,将会出现内存不足(OOM)。我们将在下一个版本中改进此问题。
Deepseek 3.2 在此版本中仅支持 torchair graph 模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认无法工作。临时解决方案是将
--gpu-memory-utilization设置为合适的值,例如 0.8。如果在同一节点上运行多个 vLLM 实例,CPU 绑定功能将无法工作。
v0.12.0rc1 - 2025年12月13日#
这是 vLLM Ascend v0.12.0 的第一个候选版本。我们在本次发布中修复了大量问题,提升了性能并增加了功能支持。欢迎任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。
亮点#
DeepSeek 3.2 已稳定且性能得到提升。在此版本中,您无需安装任何其他软件包。请按照 官方教程 开始使用。
异步调度器现已更加稳定并可以启用。请设置
--async-scheduling来启用它。现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR、OpenCUA。
核心#
[实验性] 现已支持全解码专用图模式。虽然默认未启用,但我们建议在大多数情况下通过
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'启用它。如果您遇到任何错误,请告知我们。我们将持续改进,并在未来几个版本中默认启用。新增了大量 triton 内核。vLLM Ascend 的性能,特别是 Qwen3-Next 和 DeepSeek 3.2 的性能得到了提升。请注意,triton 默认未安装和启用,但我们建议在大多数情况下启用它。您可以从 软件包链接 手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend,则需要从 源代码 自行构建 triton ascend。
新增了大量 Ascend 算子以提升性能。这意味着从本版本开始,vLLM Ascend 仅在使用自定义算子构建时才能工作。因此我们移除了环境变量
COMPILE_CUSTOM_KERNELS。您现在无法再将其设置为 0。推测解码方法
MTP现已更加稳定。它可以在大多数情况下启用,解码令牌数可以是 1、2、3。现已支持推测解码方法
suffix。感谢招商银行的贡献。支持 W8A8 的 llm-comppressor 量化工具现已可用。您现在可以直接使用此工具部署经过 W8A8 量化的模型。
W4A4 量化现已可用。
现已支持池化模型,例如 bge、reranker 等。
官方文档已得到改进。我们重构了教程,使其更加清晰。用户指南和开发者指南现在更加完整。我们将持续改进。
其它#
[实验性] 现已支持 Mooncake 分层连接器。
[实验性] 新增 KV 缓存池 功能
[实验性] 引入新的图模式
xlite。它在某些模型上表现良好。请按照官方教程开始使用。已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。
已移除 Ascend 调度器。
--additional-config {"ascend_scheduler": {"enabled": true}}不再生效。已移除 Torchair 图模式。
--additional-config {"torchair_graph_config": {"enabled": true}}不再生效。请改用 aclgraph。已移除
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION环境变量。此功能已足够稳定,现默认启用。推测解码方法
Ngram现已恢复。新增 msprobe 工具,帮助用户检查模型精度。请按照官方文档开始使用。
新增 msserviceprofiler 工具,帮助用户分析模型性能。请按照官方文档开始使用。
升级说明#
vLLM Ascend 自维护的建模文件已被移除,相关的 Python 入口点也已移除。因此,请在升级前卸载环境中的旧版本 vLLM Ascend。
CANN 已升级至 8.3.RC2,PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装。
为与 vLLM v0.12.0 保持一致,已放弃对 Python 3.9 的支持
已知问题#
DeepSeek 3/3.1 和 Qwen3 在 FULL_DECODE_ONLY 图模式下无法工作。我们将在下个版本修复此问题。#4990
DeepSeek 3.2 无法与聊天模板协同工作。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。
DeepSeek 3.2 在某些情况下无法在高并发下工作。我们将在下个版本修复此问题。#4996
我们注意到 bf16/fp16 模型性能不佳,主要是因为
VLLM_ASCEND_ENABLE_NZ默认启用。请设置VLLM_ASCEND_ENABLE_NZ=0来禁用它。我们将在下个版本添加自动检测机制。推测解码方法
suffix无法工作。我们将在下个版本修复此问题。你可以选取此提交来修复问题:#5010
v0.11.0rc3 - 2025年12月03日#
这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前发布了新的 rc 版本。感谢您的所有反馈。请按照官方文档开始使用。
亮点#
其它#
v0.11.0rc2 - 2025年11月21日#
这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们修复了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照官方文档开始使用。
亮点#
核心#
其它#
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个候选发布版本。请按照官方文档开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在未来几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。
亮点#
前缀缓存 (PrefixCache) 和分块预填充 (Chunked Prefill) 现已默认启用。 #3967
现已支持 W4A4 量化。 #3427 官方教程请参阅 [single_npu_qwen3_w4a4]vllm-project/vllm-ascend#changes。
核心#
Qwen3 和 Deepseek V3 系列模型的性能已得到提升。
现已支持 Mooncake 分层连接器 #2602。教程请参阅 pd_disaggregation_mooncake_multi_node。
现已支持 MTP > 1。 #2708
[实验性] 现已支持图模式
FULL_DECODE_ONLY!FULL模式将在未来几周内推出。 #2128现已支持池化模型,例如 bge-m3。 #3171
其它#
已知问题#
长时间服务后可能出现内存泄漏和服务卡住的问题。这是 torch-npu 的一个错误,我们将尽快升级并修复。
qwen2.5 VL 模型的准确性不佳。这是由 CANN 导致的一个错误,我们将尽快修复。
对于长序列输入场景,有时会没有响应,并且 KV 缓存使用率会变高。这是调度器的一个错误,我们正在处理中。
Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将
--gpu-memory-utilization设置为合适的值,例如 0.8。当启用专家并行运行 Qwen3-Next 时,请将
HCCL_BUFFSIZE环境变量设置为合适的值,例如 1024。使用 aclgraph 时 DeepSeek3.2 的准确性不正确。临时解决方案是根据输入的批次大小将
agraph_capture_sizes设置为合适的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照官方文档开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
核心#
其他#
W8A8 量化的性能得到提升。 #2275
修复了应用推测解码和 aclgraph 时的资源限制错误。 #2472
修复了 Docker 镜像中的 git 配置错误。 #2746
修复了预填充阶段的滑动窗口注意力错误。 #2758
新增了关于 Qwen3 预填充-解码解耦的官方文档。 #2751
环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP再次生效。 #2740为 DeepSeek 中的 oproj 添加了一项新改进。设置
oproj_tensor_parallel_size以启用此功能。 #2167修复了一个 bug:当设置了
graph_batch_sizes时,使用 torchair 的 deepseek 模型未按预期工作。 #2760当 kv_seqlen > 4k 时,避免在 rope 中重复生成 sin_cos_cache。 #2744
Qwen3 稠密模型的性能通过 flashcomm_v1 得到提升。设置
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1和VLLM_ASCEND_ENABLE_FLASHCOMM=1以启用此功能。 #2779Qwen3 稠密模型的性能通过预取功能得到提升。设置
VLLM_ASCEND_ENABLE_PREFETCH_MLP=1以启用此功能。 #2816Qwen3 MoE 模型的性能通过 rope 算子更新得到提升。 #2571
修复了 RLHF 场景下的权重加载错误。 #2756
添加 warm_up_atb 步骤以加速推理。 #2823
修复了 MoE 模型的 aclgraph 流错误。 #2827
已知问题#
当预填充和解码阶段使用不同的 TP 大小时,运行预填充-解码解耦会导致服务器挂起。此问题已由 vLLM commit 修复,但该提交未包含在 v0.10.2 中。您可以选取此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个已知问题,我们正在处理中。您可以根据您的并行配置,将
max_model_len和gpu_memory_utilization设置为合适的值以避免内存溢出错误。我们注意到,由于 KV 缓存的重新设计,LoRA 在此版本中无法工作。我们将尽快修复此问题。 2941
在使用昇腾调度器运行时,请勿启用带前缀缓存的分块预填充。其性能和准确性不佳/不正确。#2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
核心#
其他#
漏洞修复:
通过大量 PR 提升了性能:
一系列重构 PR 以增强代码架构:
参数变更:
在
additional_config中新增了lmhead_tensor_parallel_size参数,设置该参数以启用 lmhead 张量并行。#2309移除了未使用的环境变量
HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT和LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT现已重命名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450在环境变量中新增了
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否启用 MLP 优化。此功能在 eager 模式下能提供更好的性能。#2120移除了环境变量中的
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中新增了enable_prefetch参数,用于控制是否启用权重预取。#2465在
additional_config.torchair_graph_config中新增了mode参数,当使用 torchair 的 reduce-overhead 模式时,需要设置此参数。#2461additional_config中的enable_shared_expert_dp参数现在默认禁用,建议在使用 deepseek 进行推理时启用它。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴地宣布 vLLM Ascend 的最新正式版本。此版本包含了许多功能支持、性能改进和漏洞修复。我们建议用户从 0.7.3 版本升级至此版本。请始终设置 VLLM_USE_V1=1 以使用 V1 引擎。
在此版本中,我们为大规模专家并行场景添加了许多增强功能。建议遵循官方指南。
请注意,本发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。
亮点#
注意#
以下说明特别适用于从上一个正式版本 (v0.7.3) 升级时参考:
从本版本起不再支持 V0 引擎。请始终设置
VLLM_USE_V1=1以在 vLLM Ascend 中使用 V1 引擎。本版本不再需要 Mindie Turbo。旧版本的 Mindie Turbo 不兼容,请勿安装。目前所有功能和增强已包含在 vLLM Ascend 中。未来如有需要,我们会考虑重新添加。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请勿忘记升级。
核心#
为 V1 引擎新增了 Ascend 调度器。该调度器与 Ascend 硬件更加适配。
结构化输出功能现已在 V1 引擎上可用。
添加了一批自定义算子以提升性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行。DP/EP 在本版本中不可用。
本版本中 V1 引擎不支持流水线并行。
如果在 eager 模式下使用 w4a8 量化,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免内存不足错误。使用某些工具进行的精度测试可能不准确。这不影响实际用户场景。我们将在下一个发布版本中修复此问题。#2654
我们注意到,在使用 Prefill Decode Disaggregation 运行 vLLM Ascend 时仍存在一些问题。例如,可能出现内存泄漏或服务卡住。这是由 vLLM 和 vLLM Ascend 的已知问题引起的。我们将在下一个发布版本中修复此问题。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第三个候选发布版本。请按照官方文档开始使用。
核心#
MTP 支持 V1 调度器 #2371
添加 LMhead 张量并行通信组 #1956
修复了 qwen3 moe 模型在 aclgraph 模式下无法工作的 bug #2478
修复了因过时的
apply_grammar_bitmask方法导致的grammar_bitmaskIndexError #2314移除
chunked_prefill_for_mla#2177修复 bug 并重构缓存掩码生成逻辑 #2326
修复关于 Ascend 调度器的配置检查逻辑 #2327
在 disaggregated-prefill 部署中取消 deepseek-mtp 与非 Ascend 调度器之间的验证 #2368
修复了使用 ray 分布式后端时失败的问题 #2306
修复 Ascend 调度器中请求块长度不正确的问题 #2394
修复 rope 中的头文件包含问题 #2398
修复 mtp 配置 bug #2412
修复错误信息并适配
attn_metadata重构 #2402修复了因配置不匹配和缺少
.kv_cache_bytes文件导致的 torchair 运行时错误 #2312将
with_prefill的 allreduce 操作从 CPU 移至 NPU #2230
文档#
添加 deepseek 大模型 EP 相关文档 #2339
已知问题#
在 A2 (910B1) 上,当
"full_cuda_graph": True时,test_aclgraph.py测试失败 #2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照官方文档开始使用。V0 引擎已在此版本中完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级至
2.7.1.dev20250724。 #1562 同时 CANN 已升级至8.2.RC1。 #1653 请勿忘记在您的环境中更新它们或使用最新的镜像。vLLM Ascend 现已在 Atlas 800I A3 上运行,A3 的镜像将从此版本开始发布。 #1582
vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 和 GLM-4.5 模型,请按照此教程进行尝试。 #2162
V1 引擎现已支持流水线并行。 #1800
前缀缓存功能现在可与 Ascend 调度器协同工作。 #1446
Torchair 图模式现在支持 tp > 4 的情况。 #1508
MTP 现在支持 torchair 图模式 #2145
其他#
漏洞修复:
通过大量 PR 提升了性能:
一系列重构 PR 以增强代码架构:
参数变更:
additional_config中的expert_tensor_parallel_size现已被移除,EP 和 TP 现已与 vLLM 对齐。 #1681在环境变量中添加
VLLM_ASCEND_MLA_PA,用于启用 deepseek mla 解码的 mla 分页注意力算子。在环境变量中添加
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE,用于在启用张量并行时启用MatmulAllReduce融合内核。此功能在 A2 上受支持,且 eager 模式将获得更好的性能。在环境变量中添加
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于决定是否启用 moe all2all seq,这为在 alltoall 基础上进行扩展提供了一个基础框架。
在遵循此 RFC #1298 提交一系列 PR 后,单元测试覆盖率已达到 76.34%。
序列并行现可用于 Qwen3 MoE。 #2209
现已添加中文在线文档。 #1870
已知问题#
v0.9.1rc2 - 2025年08月04日#
这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照官方文档开始使用。
亮点#
模型改进#
DeepSeek DBO 支持与改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 在 rmsnorm/repo/mlp 算子方面的性能改进:#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 分块预填充/图模式/多流改进与错误修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
图模式改进#
在 #1269 中修复了 DeepSeek 与 mc2 的问题。
在 #1332 中修复了 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题。
在 #1570 中修复了 torchair_graph_batch_sizes 错误。
在 #1404 中为 torchair 图模式启用了 tp <= 4 的限制。
修复 rope 精度错误 #1887
支持 FusedMoE 中共享专家的多流处理 #997
在 torchair 图模式的解码过程中启用 kvcache_nz #1098
修复结合 torchair 的分块预填充场景,解决 UnboundLocalError: local variable 'decode_hs_or_q_c' 问题 #1378
在 #1561 中改进了 w8a8 动态量化下共享专家的多流性能。
在 #1882 中修复了设置多流时的 moe 错误。
在 EP 场景下将图批次大小向上取整至 tp 大小 #1610
在 #1727 中修复了启用 DP 时的 torchair 错误。
在 #1675 中为 torchair_graph_config 添加了额外检查。
在 #1693 中修复了 torchair+分块预填充场景下的 rope 错误。
在 #1748 中修复了 chunked_prefill 为 true 时的 torchair_graph 错误。
在 #2090 中改进了预填充优化以支持 torchair 图模式。
修复 DP 场景下的 rank 设置 #1247
重置所有未使用的位置以防止越界,以解决 GatherV3 错误 #1397
移除 ModelRunner 中的重复多模态代码 #1393
修复块表形状以解决准确性问题 #1297
在有限场景下实现原始全图 #1503
在全图中恢复分页注意力内核以提升性能 #1677
修复 DeepSeek 在极端
--gpu-memory-utilization场景下的 OOM 问题 #1829启用 TorchAir 时关闭 aclgraph #2154
算子改进#
核心#
将 CANN 升级至 8.2.rc1 #2036
将 torch-npu 升级至 2.5.1.post1 #2135
将 Python 升级至 3.11 #2136
在 mindie_turbo 中禁用量化 #1749
修复 v0 推测解码 #1323
仅在使用 V0 推测解码时直接启用
ACL_OP_INIT_MODE=1#1271重构 forward_context 和 model_runner_v1 #1422
修复采样参数 #1423
添加权重启用 NZ 布局的开关并为 GMM 启用 NZ #1409
处理 PrefillCacheHit 状态以修复前缀缓存准确性问题 #1492
修复加载权重错误并添加新的端到端测试用例 #1651
优化 DeepSeek 中与 rope 相关的索引选择次数 #1614
添加 mc2 掩码 #1642
为预填充添加分块 mc2 #1703
修复 mc2 算子 GroupCoordinator 错误 #1711
修复无法识别量化实际类型的问题 #1721
修复 tp_size == 1 时的 DeepSeek 错误 #1755
在预填充节点中添加对无延迟块的支持 #1691
针对未量化 RL 训练的 MoE alltoallv 通信优化 & alltoallv 支持 dpo #1547
适配 dispatchV2 接口 #1822
修复长输出中 disaggregate prefill 挂起问题 #1807
修复 engine v0 时的 flashcomm_v1 问题 #1859
在某些情况下,ep_group 不等于 word_size #1862。
修复了 wheel glibc 版本不兼容问题 #1808。
修复了 mc2 进程组以解决 self.cpu_group 为 None 的问题 #1831。
将 vllm 版本固定为 v0.9.1 以使 mypy 检查通过 #1904。
为 MoE 应用了 npu_moe_gating_top_k_softmax 以提升性能 #1902。
修复了 engine v0 中 path_decorator 的 bug #1919。
在解耦预填充场景中避免执行 CPU all_reduce #1644。
在解码 MoE 中添加了超级内核 #1916。
[预填充性能] 并行策略优化(显存换速度权衡) #1802。
移除了 shared_experts.down_proj 中不必要的 reduce_results 访问 #2016。
通过向量化优化了贪婪拒绝采样器 #2002。
使多个 P 节点和 D 节点能在单机上工作 #1936。
修复了 deepseek 模型在 tp > 1 且启用 multistream_moe 时,共享专家与路由专家之间的形状冲突 #2075。
添加了 CPU 绑定支持 #2031。
添加了 with_prefill CPU allreduce 以处理 D 节点重计算 #2129。
添加了 D2H 和 initRoutingQuantV2 以提升预填充性能 #2038。
文档#
已知问题#
v0.9.2rc1 - 2025年7月11日#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本版本起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。并且本版本是最后一个支持 V0 引擎的版本,V0 代码将在未来被清理。
亮点#
核心#
其他#
官方文档已更新,以提供更好的阅读体验。例如,添加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。
修复了 Deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题 #1331。
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它为 Deepseek V3/R1 模型启用了融合的 allgather-experts 内核。默认值为0#1335。新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。默认值为 0,未来我们将考虑默认启用它 #1732。Ascend 调度器现已支持前缀缓存。#1446
DeepSeek 现已支持前缀缓存。#1498
支持使用 prompt logprobs 恢复 V1 版本的 ceval 准确率 #1483
已知问题#
流水线并行目前无法与 ray 和图模式协同工作:vllm-project/vllm-ascend#1751 vllm-project/vllm-ascend#1754
新贡献者#
@xleoken 在 vllm-project/vllm-ascend#1357 中完成了首次贡献
@lyj-jjj 在 vllm-project/vllm-ascend#1335 中完成了首次贡献
@sharonyunyun 在 vllm-project/vllm-ascend#1194 中完成了首次贡献
@Pr0Wh1teGivee 在 vllm-project/vllm-ascend#1308 中完成了首次贡献
@leo-pony 在 vllm-project/vllm-ascend#1374 中完成了首次贡献
@zeshengzong 在 vllm-project/vllm-ascend#1452 中完成了首次贡献
@GDzhu01 在 vllm-project/vllm-ascend#1477 中完成了首次贡献
@Agonixiaoxiao 在 vllm-project/vllm-ascend#1531 中完成了首次贡献
@zhanghw0354 在 vllm-project/vllm-ascend#1476 中完成了首次贡献
@farawayboat 在 vllm-project/vllm-ascend#1591 中完成了首次贡献
@ZhengWG 在 vllm-project/vllm-ascend#1196 中完成了首次贡献
@wm901115nwpu 在 vllm-project/vllm-ascend#1654 中完成了首次贡献
完整更新日志:vllm-project/vllm-ascend
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
实验性功能#
本版本实验性支持 Atlas 300I 系列(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333
支持使用 EAGLE-3 进行推测式解码。#1032
经过慎重考虑,鉴于 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会被包含在 v0.9.1-dev 分支(即 v0.9.1 最终版本)中。我们将在 0.9.2rc1 及之后的版本中对其进行改进。
核心#
其他改进#
为 MLA 初步支持分块预填充。#1172
已添加一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持 AscendScheduler 的推测式解码功能。#943
提升了
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置错误。#884
修复了启用静态 EPLB 功能时出现的 log2phy NoneType 错误。#1186
重构 AscendFusedMoE #1229
新增初始用户案例页面(包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)#1224
添加单元测试框架 #1201
已知问题#
完整更新日志#
新贡献者#
@farawayboat 在 vllm-project/vllm-ascend#1333 中完成了首次贡献
@yzim 在 vllm-project/vllm-ascend#1159 中完成了首次贡献
@chenwaner 在 vllm-project/vllm-ascend#1098 中完成了首次贡献
@wangyanhui-cmss 在 vllm-project/vllm-ascend#1184 中完成了首次贡献
@songshanhu07 在 vllm-project/vllm-ascend#1186 中完成了首次贡献
@yuancaoyaoHW 在 vllm-project/vllm-ascend#1032 中完成了首次贡献
完整更新日志: vllm-project/vllm-ascend
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复当以非可编辑方式安装 vllm-ascend 时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开始使用。从此版本起,推荐使用 V1 引擎。V0 引擎的代码已被冻结,不再维护。如需启用 V1 引擎,请设置环境变量 VLLM_USE_V1=1。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。
多节点数据并行在此版本中无法使用。这是 vllm 中已知的问题,并已在主分支中修复。#18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 版本的第一个补丁发布。请按照官方文档开始使用。本次更新包含以下更改:
亮点#
错误修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 版本正式发布。这是首个官方正式版本。该版本的功能、性能和稳定性均已通过全面测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布错误修复版本。请按照官方文档开始使用。
亮点#
本次发布包含了之前所有候选版本中已实现的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能均已通过全面测试和验证。请访问官方文档以获取详细的功能和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充和自动前缀缓存功能。您现在可以启用这些功能。
将 PyTorch 升级至 2.5.1。vLLM Ascend 现在不再依赖 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 中,以提升 DeepSeek V3/R1、Qwen 2 系列的性能。#708
核心#
现已支持 LoRA、多 LoRA 和动态服务。性能将在下一个版本中得到提升。请参阅官方文档以获取更多使用信息。感谢招商银行的贡献。#700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开始使用。现在,您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎。vLLM Ascend 的功能支持状态请参见 supported_features。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1 #715
修复了在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题 #682
适配由 modelslim 生成的新量化模型 #719
基于 llm_datadist 的 P2P 分布式预填充初步支持 #694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git,以修复在/workspace下启动 vllm 时的问题 #726优化 NPU 内存使用,使 DeepSeek R1 W8A8 32K 模型长度能够运行。#728
修复 setup.py 中的
PYTHON_INCLUDE_PATH拼写错误 #762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend v0.8.4 的第二个候选版本。请遵循官方文档开始使用。此版本包含一些实验性功能,例如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使其足够稳定。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选版本。请遵循官方文档开始使用。从本版本起,vllm-ascend 将跟随 vllm 的最新版本并每两周发布一次。例如,如果 vllm 在接下来的两周内发布 v0.8.5,vllm-ascend 将发布 v0.8.5rc1,而不是 v0.8.4rc2。详细信息请参阅官方文档。
亮点#
核心#
其他#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选版本。请遵循官方文档开始使用。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装: https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250320.3 以提高精度,修复
!!!输出问题。 #406
模型#
通过优化补丁嵌入(Conv3D),Qwen2-vl 的性能得到了提升。 #398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请按照官方文档开始您的旅程。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装: https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250308.3,以提高
_exponential的精度新增了对池化模型的初步支持。基于 Bert 的模型,例如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。 #229
模型#
其他#
为 DeepSeek V3/R1 支持 MTP(多标记预测) #236
[文档] 新增了更多模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档
在 vLLM v0.7.3 上将 modelscope 版本锁定为 <1.23.0,以解决:vllm-project/vllm#13807
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。
vLLM Ascend 插件(vllm-ascend)是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能和改进。
请按照官方文档开始您的旅程。请注意,这是一个候选发布版本,可能存在一些错误或问题。我们非常感谢您的反馈和建议,请通过此问题提交。
亮点#
在 vLLM 上初步支持 Ascend NPU。 #3
Qwen、Llama 系列及其他流行模型也已支持,更多详情请参阅 supported_models。
核心#
其他#
已知问题#
此版本依赖于一个尚未发布的 torch_npu 版本。该版本已预装在官方容器镜像中。如果您使用的是非容器环境,请手动安装。
运行 vllm-ascend 时,可能会显示类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不影响任何功能或性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。运行 vllm-ascend 时,可能会显示类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,实际应为# NPU blocks:。这实际上不影响任何功能或性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。