版本说明#
v0.20.2rc1 - 2026.06.03#
We're excited to announce the release of v0.20.2rc1 for vLLM Ascend. This is the first release candidate for the v0.20.2 release line. Please follow the official doc to get started.
亮点#
DeepSeek V4 Support: Added end-to-end support for DeepSeek V4, including the model architecture, DSA attention backend, KV cache management, distributed inference, tool-call parser, MTP support, KV Pool adaptation, and custom operator enablement. #9270 #9385 #9228
A5 and XLite Quantization Expansion: Added MXFP4 flatquant with row parallelism for Ascend A5 and expanded XLite support to GLM-4.7 W8A8 quantization. #9391 #9415
功能#
Added Flash Attention 3 support for training-inference consistency. The backend is ready in vLLM Ascend and will become directly usable once the FA3 package is publicly available. #9060
Added DeepSeek PCP/DCP adaptation to improve support for disaggregated deployments. #9058
Added a dedicated
additional_config.enable_dsa_cpswitch to decouple DSA-CP from FC1. DSA-CP now requires both FC1 and DSA-CP to be explicitly enabled, allowing FC1 to stay enabled while DSA-CP is disabled when needed. #9878Added merged graph support for DFlash workloads. #9074
Added LoRA support for Qwen3.5 dense models. #9023
Added KV pool adaptation for DeepSeek V4 and separated MTP-layer KV cache sharding for DeepSeek V4 speculative decoding. #9385 #9367
硬件与算子支持#
Added DeepSeek V4 custom operators required for the new model path, registered the operators for Ascend 910B, and switched the DeepSeek V4
hc_prepath to a fused operator. #9228 #9339 #9396Enabled MXFP4 flatquant and row parallel support on Ascend A5. #9391
Enabled MC2 dispatch and combine support for MXFP4/MXFP8 quantization on Ascend A5. #9365 #9328
Improved 310P support by optimizing fused operators for Qwen3.5 Dense ACLGraph and simplifying the 310P RMSNormGated path. #9104 #9489
性能#
Added DeepSeek V4 DSA multistream overlap optimizations across compressor, indexer-select, CV parallel, and pure-prefill compute-communication overlap paths. #9450 #9441 #9433 #9504
Reused DSA
topk_indicesacross decode steps with IndexCache to reduce repeated DeepSeek V4 index computation. #9390Fixed the missing enablement for
cv_indexer_qkv_preparemultistream parallelism in the new overlap path. #9530Reduced host-device synchronization overhead by removing the sync point in PIECEWISE mode. #9025
Optimized shared expert overlap timing in FusedMoE. #9413
[Experimental] Added reduce sampling with
enable_reduce_sampleto lower Tensor Parallel communication overhead in distributed greedy, top-k/top-p, and rejection sampling paths. #8308
Stability and Bug Fixes#
依赖项#
Breaking Changes and Migration Notes#
Migrated a set of runtime options from environment variables to
AscendConfig, including the FC1/FlashComm1 switch fromVLLM_ASCEND_ENABLE_FLASHCOMM1toadditional_config.enable_flashcomm1. Please review configuration code and deployment manifests when upgrading. #9064Disabled SwiGLU clamp by default, which may slightly change behavior for workloads that previously relied on the old default. #9438
文档#
已知问题#
GLM5/GLM5.1 W4A8 deployments have known issues in some advanced configurations. CANN 9.0 with MC2 can return inaccurate output, FlashComm can fail during model startup, and MTP weight loading can fail in 1P1D A3 deployments. #9395 #9658 #9655
GLM-5.1 deployments can hit
MoeDistributeDispatchV2/NPU graph failures when Expert Parallel is used together with FULL graph mode. The reported workaround is to disable Expert Parallel for FULL graph mode, or use PIECEWISE/eager mode. #9503310P does not currently support
runner_type='pooling'; starting pooling models on 310P raisesNotImplementedError. #9593Qwen3.6-35B-A3B may shut down when MTP/speculative decoding is enabled, with
numAcceptedTokens[0]=4 exceeds varlen segment length=3reported during shape/dtype processing. #9956GLM-5.1 can hang on the P node in 200K long-sequence 1P1D agent workloads after long-running service, with
MoeDistributeDispatchV2/aclnnMoeDistributeDispatchV4reporting an AICore timeout. #9958GLM5 W4A8 deployments can see a significantly lower speculative decoding acceptance rate when MTP3 is used together with FlashComm. #9803
MiniMax-M2.7 W8A8/QuaRot can show lower-than-expected GPQA accuracy in long-sequence deployments when PCP/DCP is combined with Eagle3 speculative decoding. #9959
v0.18.0 - 2026.04.30#
我们很高兴地宣布 vLLM Ascend v0.18.0 正式发布。这是 v0.18.0 的正式版本。请按照 官方文档 开始使用。
亮点#
模型支持
Kimi-K2.x 模型支持:[实验性]添加了对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755
Minimax-m2.x 模型支持:[实验性]添加了对 Minimax-m2.x 模型的支持,支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714
GLM5 支持:[实验性]无需任何代码修改即可支持 GLM5 模型!
Qwen3.x 支持:[实验性]无需任何代码修改即可支持 Qwen3.x 模型!
DeepseekOCR 支持:[实验性]添加了对 DeepseekOCR 模型的支持,并优化了
RelPosAttention和CustomQwen2Decoder。@Wangbei25 #7737
核心功能
EPLB(专家并行负载均衡):EPLB 经过大量 bug 修复后更加稳定,性能也得到提升。EPLB 现在在大多数情况下都能正常工作,推荐使用。#6528 #7344 #7890 #6477
ACLGraph 增强:ACLGraph 现在支持为多步草稿捕获单个合并图,大大减少了多步推测解码场景中的 host bound!#5553 #5940
KV 池化:增强的 KV 池与 Mooncake 连接器现在支持稀疏注意力,LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案被添加,支持 HIXL 互联的 FabricMem 模式,支持 yuanrong 作为 AscendStoreConnector 的后端,并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前的版本相比,KV 池化在 TTFT 上实现了巨大的性能优化!#6339 #6882 #6806 #6869 #7032
PD 分离:Mooncake layerwise 连接器现在支持混合注意力管理器和 PCP 功能。#7022 #6627
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
RL(强化学习):[实验性]通过 AscendC 和 triton op 实现了批量不变性功能,增强了 RL,并添加了路由重放功能。#6590 #6696
CPU 绑定默认启用:启用了仅 ARM CPU 绑定,采用全局切片 A3 策略,提高了 hostbound 场景中的推理吞吐量。#6686
功能#
硬件与算子支持#
首次支持 310P,并进行了巨大的性能优化!:
自定义算子:添加了多个自定义算子,包括:
为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661
新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725
为 MoE 模型新增了 GMM 自定义算子。#7010
优化了 split_qkv_rmsnorm_rope 算子。#6827
Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366
优化了
DispatchFFNCombine内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707重构并优化了 CausalConv1d。#7495
性能#
初始化性能:优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645
Qwen3.x 性能:[实验性]通过支持全图模式、PD 分离、mamba prefill 前缀缓存和 flashcomm1、预构建 chunk 元数据以减少主机-设备同步开销,以及多项算子性能优化(包括
chunk_gated_delta_rule、chunk_fwd_kernel_o、solve_tril、recompute_w_u_fwd_kernel、split_qkv_rmsnorm_mrope等),优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368Kimi-K2.x 性能:[实验性]通过支持 eagle3 和 flashcomm1,并减少 d2h 开销,优化了 Kimi-K2.x 的性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521
Qwen3-VL 性能:Qwen3-VL 通过 Flash Comm V1 和
qkv_rmsnorm_mrope支持获得了更强的多模态算子能力,并通过 aclnn BatchMatMulV2 使卷积计算速度提升 2.7 倍,支持 EAGLE 推测解码。#7893 #7852 #7017 #6327Qwen3-Omni 性能:现已提供 Qwen3-Omni 量化适配和优化。#6828
DeepSeek-V3.2/GLM5 性能:性能优化,支持 W8A8C8 量化,并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610
GLM4.7-Flash 性能:为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492
依赖项#
vLLM:已升级至 0.18.0 并停止支持 0.17.0。
CANN:已升级至 8.5.1。附注: 使用 FabricMem 模式的 AscendStoreConnector、310P 设备支持以及 Qwen3-Omni 模型需要将 CANN 版本升级至 9.0.0,如需这些功能,请手动升级。
torch-npu:由于已知问题,已升级至 2.9.0.post1+git4c901a4。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 torch-npu 至 2.9.0.post2。
triton-ascend:由于已知问题,已升级至 3.2.0.dev20260322。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/triton_ascend-3.2.0.dev20260322-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_27_${ARCH}.manylinux_2_28_${ARCH}.whl。附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 triton-ascend 至 3.2.1。
Transformers:已升级至 >= 4.57.4。
Mooncake:已升级至 3.9.0。
${PYTHON_TAG} 是 Python 版本标签,${ARCH} 是 CPU 架构。
For example: python3.11 and aarch64, ${PYTHON_TAG}=cp311, ${ARCH}=aarch64.
弃用与重大变更#
文档#
新增了 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169
在常见问题解答中添加了抢占指导。#8136
更新了 Qwen3.5 用户指南。#7934
更新了 DeepSeek-V3.2 的文档配置。#7970
清理了文档的措辞和语法。#8073
更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300
新增了 CPU 绑定的用户/开发者指南。#7045
新增了 Memcache 使用指南。#6476
新增了后缀推测解码的基准测试教程。#6323
新增了 npugraph_ex 介绍文档。#6306
其他#
为捕获模式添加了异步通信检查。#8149
修复了池化场景之间的 KV Pool 冲突,并修复了 vLLM v0.18.0 上缺失的 KV 缓存放置问题。#8101 #7874
通过修正注意力状态处理,修复了短提示转发问题。#8088
为均匀令牌分发恢复了
global_bs=0和mc2_mask,并支持跨节点 RoCE 分层 MC2 通信。#8040修复了 Qwen3-VL 的权重映射器错误。#7868
通过将反向映射改为前向映射,修复了
AscendModelSlimConfig中的量化配置键映射。#7716修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472
分层连接器现在支持重计算调度器。#5900
修复了池化代码问题并更新了使用指南。#6126
NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968
已知问题#
目前,在多 DP 和大令牌数场景(
kv_producer或kv_both)下,不推荐使用VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌,这些令牌将被路由到某些专家,导致某些 rank 接收令牌过载,从而引发精度和性能问题。#8320目前,EPLB 不支持
minimax_m2模型和 W4A8 量化。#8341当预填充请求的调度令牌数小于
1 + num_speculative_tokens时,PCP 和 eagle3 叠加可能会产生错误,这将导致该预填充请求被当作解码请求处理,从而引发错误。#8402不支持 NPU 软分区 +
CUDAGraphMode.PIECEWISE。#8585Qwen3.x 在 PD 解耦场景下存在精度问题。#8421
当前在 x86 架构上存在一个已知问题,该问题已在 CANN 9.0.0 中解决。若要在 x86 上部署 vllm-ascend,请手动升级 CANN 版本。#7993
P/D 代理在重算重试后可能泄漏资源并掩盖 metaserver 错误。#8852
通过 PD 架构分别部署 GLM5 和 Deepseek V3.2 时,存在概率性输出为空或乱码的问题。#8853
对于 PD 分离下 D 节点配置为 TP16 DP2 并行的 GLM 5/5.1,GPQA 精度未达到标准。#8844
v0.19.1rc1 - 2026.04.30#
这是基于 vLLM v0.19.1 的 vLLM Ascend v0.19.1 首个候选发布版本。此版本包含显著的性能优化、新模型支持、硬件扩展以及重要的错误修复。
请按照官方文档开始使用。
亮点#
DFlash Attention 后端:新增 DFlash attention 后端,支持 FULL_DECODE_ONLY 模式以提升推理性能。(#8118, #8516, #8627)
零气泡异步调度:为异步调度和推测解码实现了零气泡优化,显著降低了调度开销。(#7640)
A2/A3 注意力算子升级:将 npu_fusion_attention 替换为 _npu_flash_attention_unpad 算子,以在 A2 和 A3 硬件上获得更佳性能。(#8671)
Eagle3 + MiniMax-M2.5 支持:将 Eagle3 推测解码应用于 MiniMax-M2.5 模型,实现更快的推理。(#7619)
GQA 的 C8 INT8 KV 缓存:为 GQA 注意力模型添加了 C8(INT8 KV 缓存)支持,包括支持 PD 解耦的 DeepSeek-V3.1。(#7474, #7222)
Bailing 模型支持:全面支持 Bailing MoE 模型,包括线性适配和 ModelSlim 量化。(#8657, #8709)
功能#
Qwen3-VL 的 Flash Comm V1:为 Qwen3-VL 多模态模型支持 Flash Comm V1。(#7897)
Eagle + PCP + 全图模式:支持 Eagle 与 PCP 及全图模式的组合。(#7924)
PCP 下的多模态推理:启用预填充上下文并行功能时支持多模态推理。(#8038)
PP 的动态分块:为分块流水线并行支持动态分块。(#7896)
优化的因果 Conv1d 算子:新增优化的因果 conv1d 算子。(#8215)
循环 AscendC 算子:为特定模型架构新增循环 AscendC 算子。(#8055)
GLM4.7 C8 支持:支持 GLM4.7 的 C8(INT8 KV 缓存)场景。(#8174)
Minitron-8B-Base 支持:验证并支持 nvidia/Minitron-8B-Base 模型。(#8157)
Bailing 模型支持:全面支持 Bailing MoE 模型,包含线性适配和 ModelSlim 量化配置。(#8657, #8709)
Qwen3.5 MoE Flash Comm:为 Qwen3.5 MoE 模型支持 Flash Comm。(#7486)
MRv2 的初始 MoE 支持:为 Model Runner V2 添加初始 MoE 模型支持。(#7922)
Xlite 后端扩展:
EPLB 增强:
model_runner_v2 的 Eagle 改进:
MTP 合并图:支持 MTP(多令牌预测)的合并图 (#6860)
统一 MoE 专家放置:支持共享专家和路由专家的统一放置 (#7188)
Dispatch V2 层级通信:支持 dispatch_v2/combine_v2 层级通信以提升 MoE 性能 (#7583)
Dispatch FFN Combine 的 Xmask:为 dispatch_ffn_combine 算子添加 xmask 功能(w8a8 分支)(#8560)
融合 W4A8 内核:将 W4A8 dispatch + FFN + combine 融合为单个内核 (#7779)
KV 缓存内存核算:在 KV 缓存规划中考虑图捕获内存 (#8289)
Qwen3-Next 混合注意力:支持 piecewise 和 full_decode_only 模式下的 Qwen3-next 混合注意力 (#7422)
GDN 优化:优化 GDN 非推测预填充回退元数据 (#7756)
Qwen3-VL 支持:为 Qwen3-VL 支持 kv_rmsnorm_mrope (#7762)
Mamba 前缀缓存:Layerwise connector 支持 Mamba 预填充前缀缓存 (#7814)
Yuanrong KV 池后端:为 KV 池添加 Yuanrong 后端支持 (#6869)
硬件与算子支持#
性能#
A2/A3 注意力:使用 _npu_flash_attention_unpad 算子替换 npu_fusion_attention 以提升性能 (#8671)
MLA PCP 预填充优化:通过避免投影不必要的尾部 KV 令牌来优化 MLA PCP 预填充注意力 (#8787)
异步调度优化:
KV 缓存优化:
算子优化:
Triton 内核优化 (model_runner_v2):
HCCL 进程组复用:在 Ascend 上复用等效的 HCCL 进程组 (#7654)
CPU 绑定延迟:将 CPU 绑定延迟至 worker 预热完成 (#7829)
Conv3d 转 Linear:当 kernel 大小等于 stride 时将 conv3d 转换为 linear (#8318)
依赖项#
文档#
PD 分离指南:
模型文档:
文档改进:
其他#
重要 Bug 修复:
GQA C8 Fullgraph:修复了 GQA C8 fullgraph 模式下的一个 bug (#8779)
DSV3.1 W4A8 TTFT:回退
balance_flag的变更以修复 DSV3.1 W4A8 TTFT 性能下降 (#8675)DSV3.1 服务启动:修复 DeepSeek-V3.1 服务启动失败的问题 (#8208)
Qwen3.5 MoE 高并发:修复 dp>1 时高并发下 Qwen3.5 MoE FC1 错误 (#8396)
Qwen3.5 MoE Flash Comm:修复 A2 上 Qwen3.5 MoE flash comm v1 mtp 层共享专家形状错误 (#7683)
图捕获OOM:修复了 model_runner_v2 中的图捕获内存溢出问题(#8111)
DeepSeek 3.2 C8精度:通过回退量化层修复了 DeepSeek 3.2 C8 的精度问题(#7628)
DeepSeek 3.2 DCP MTP:修复了 ds3.2 dcp mtp 问题(#7617)
MTP1并发崩溃:修复了 MTP1 在多个并发场景下的崩溃问题(#7459)
投机解码+异步:修复了投机解码和异步的 bug(#8461)
投机解码+Logprobs:修复了禁用异步调度时投机解码+logprobs 的崩溃问题(#7861)
重复惩罚:修复了异步调度中 repetition_penalty 无效的问题(#7789)
P/D KV缓存:修复了 P/D 场景中 TP 不相等时 MTP 层的 KV 缓存问题(#8540)
P/D短序列:修复了 P/D 模式下短序列无响应的问题(#8104)
P/D重试机制:添加了重试机制以防止 P/D 中的丢包(#8166)
分层连接器OOM:修复了大缓冲区传输时分层的连接器内存溢出问题(#7834)
KV池Put逻辑:修复了 KV 池未放入 KV 缓存的问题,并修复了 KV 传输的 Put 逻辑(#7875, #7717)
KV池PCP/DCP:修复了 KV 池的 PCP 和 DCP bug(#8099)
Mooncake后端:MooncakeBackend 处理 Ascend 之外的协议(#8514)
FlashComm服务器初始化:修复了使用 FLASHCOMM 时 max_num_seqs 不是 tp 倍数时的服务器初始化错误(#7801)
Triton重装:在 vllm-ascend 安装后重新安装 triton-ascend(#7790)
DBO兼容性:为 Ascend NPU 上的 --enable-dbo 添加了兼容性保护(#8507)
NPU上的GPU参数:在 Ascend NPU 上保护 GPU 特定的并行配置参数(#8703)
A2 CPU绑定:避免隐藏 NPU 导致的 A2 CPU 绑定重叠(#8792)
FIA填充Bug:修复了 EAGLE 最大并发下的 FIA 填充 bug(#7740)
MoE加载精度:修复了 allgather 中 moe_load 的精度问题(#7887)
Qwen的FlashComm1+DCP:支持 Qwen 模型的 FlashComm1 和 DCP(#7673)
块验证:禁用块验证以避免 NPU 上的错误验证(#7603)
Model Runner V2全图:修复了全图模式下的 model_runner_v2(#7945)
MRv2投机解码:修复了 mrv2 在投机解码时的运行时错误(#8209)
GLM工具调用流式:修复了 GLM 工具调用流式问题(#8832)
强制工具选择:修复了强制工具选择的 none-content 处理(#8833)
MiniMax推理用量:修复了 MiniMax 推理用量统计(#8831)
其他Bug修复:
MTP 在 lmhead TP logits 截断后的循环批次大小(#8718)
修复了 DSV32 混合部署中 layer_sharding 导致的错误(#8717)
EPLB topk_ids 使用逻辑专家计数(#8501)
EPLB 验证逻辑优化及 MTP 支持冗余专家(#8710)
SP 在 MoE 序列并行中保留图字符串化(#8780)
SpecDecode 修复 draft quarot 模型加载超时(#8736)
修复 _dummy_run 预热与 --language-model-only 不匹配的问题(#8556)
修复 AscendYaRNRotaryEmbedding 中的 AttributeError(#8734)
Eagle3 添加全图形案例并检查 mock 函数 (#8668)
修复 npu_fused_infer_attention_score_v2 中的 atten_mask (#8387)
修复 eagle 与 dflash 在 pcp 上的冲突 (#8598)
修复 DeepSeek 3.2 PCP+MTP 的 slot 映射错误 (#8547)
dispatch_ffn_combine 内核回滚 (#8539)
层分片需要 KV 生产者 (#8562)
310P 使用 CPU 生成器缓存进行采样 (#8495)
修复 pcp+eagle3 的 compute_slot_mapping triton (#8435)
在 fuse_moe 中处理基于枚举的 MoE 激活 (#8465)
按 PD 模式门控 recompute/balance/fused_mc2 (#8373)
w8a8 dispatch ffn combine 偏置参数适配 (#8342)
修复 flashcomm1 下 GLM-5 的 w8a8_static 中 quant_bias 缺失问题 (#8220)
修复 deepseek v3.2 的 DSA-CP PD 角色门控 (#8290)
逐层 AscendStorConnector 需要分段 cudagraph (#8283)
修复 patch balance 调度器中的远程 KV 等待提升问题 (#8279)
对 CPU 绑定子进程解析强制执行 C 语言环境 (#8251)
在 mlapo 分支 SFA 中添加 wait_for_kv_layer_from_connector (#8195)
修复 SP 填充时的维度不匹配问题 (#7858)
310P 修复 Triton 内核 block_table 崩溃 (#8144)
修复短提示的注意力状态 (#8029)
310P 修复图模式下后采样不工作问题 (#8017)
310P 使 GDN 状态语义与 vLLM 对齐 (#7902)
310P 处理 ShardedStateLoader310 中的空量化配置 (#7546)
在 eager 模式下启用 SP 和 eagle3 时取消填充 block table (#7986)
修复 qwen3-next 编译错误 (#7936)
修复 qwen3-vl 的 weightsmapper 错误 (#7869)
修复量化配置属性错误 (#7736)
移除 eplb 不必要的 weight_scale 包装行为 (#7733)
适配 model runnerv2 的 main2main 并在休眠模式添加垃圾回收 (#7709)
修复嵌入模型的前缀缓存支持 (#7452)
在图+强化学习场景中复用权重地址 (#7473)
已知问题#
在单节点(非 PD 分离)场景下运行 GLM-5 / GLM-5.1 模型时,可能出现错误结果或运行时错误。详情及解决方法请参见 #8843。
triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到
triton-ascend==3.2.0.dev20260322并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782torch-npu:由于已知问题,请升级至 2.9.0.post1+git4c901a4。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。 附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 torch-npu 至 2.9.0.post2。
v0.18.0rc1 - 2026年04月01日#
这是 vLLM Ascend v0.18.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
性能#
文档#
其他#
已知问题#
在高并发下运行启用了 MTP 和 KV Pool 的 DeepSeek-R1 W8A8 时,可能会出现
ValueError: Counters can only be incremented by non-negative amounts错误。#7489triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到
triton-ascend==3.2.0.dev20260322并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782在 Ascend 上使用 tp-size >= 16 时,FIA 不支持所有的 MHA 头维度。受影响的模型会因不支持的头部维度而出错。这将在未来的版本中,当 FIA 支持更多头部维度时得到解决。#7729
尽管 Minimax-2.5 现在支持 PD 解耦,但内部测试发现启用此功能时,在 GPQA 基准测试上会出现 13% 的性能回退。我们目前不建议为此模型启用 PD 解耦,并且我们正在努力进行优化修复。
v0.17.0rc1 - 2026年03月15日#
这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
支持从模型文件自动检测量化格式,同时也支持远程模型ID(例如
org/model-name)。现在不再需要--quantization ascend参数。#7111从本版本开始支持 Qwen3.5。
用于 EPLB 的 FlashLB 算法:支持每步热度收集和多阶段负载均衡,以提高专家并行效率。#6477
已修复并支持了结合张量并行和
--fully-sharded-loras的 LoRA。#6650新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。#6882
在 PD-mix 场景下,DeepSeek-V3.2 现已支持 W8A8C8 量化。#7029
[实验性] Ascend NPU 现已支持 Minimax-m2.5 模型。#7105
[实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。#7022
[实验性] 混合模型现已支持前缀缓存。#7103
性能#
文档#
其他#
修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。#7139
修复了 310P 上 ngram 图重放的精度错误。#7134
在上游 vLLM 变更后,修复了图模式下的 FIA 填充逻辑。#7144
修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。#7209
修复了在 rank0 设备上产生额外进程的问题。#7107
图捕获失败现在会正确抛出异常,便于调试。#5644
通过将
torch_npu.npu_recurrent_gated_delta_rule替换为fused_recurrent_gated_delta_rule来修复 Qwen3.5 模型。#7109修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156
已知问题#
GLM5 需要 transformers==5.2.0,此问题将通过 vllm-project/vllm#30566 解决,不会包含在 v0.17.0 中。
由于 TP 权重分割方法变更,Qwen3-Next 存在精度问题。将在下个版本中修复。
在混合模型中,当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关,例如,当 TP=2 时,block_size 调整为 2048,这意味着任何短于 2048 的前缀都不会被缓存。
GLM5 在 2 节点 PD 混合部署场景中存在一个问题:当并发数超过 8 时,推理可能会挂起(已在 PR #7235 和 #7290 中修复)。
v0.16.0rc1 - 2026年03月09日#
这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
硬件与算子支持#
性能#
依赖项#
CANN 已升级至 8.5.1,如果您未使用官方镜像,请记得手动升级。#6897
弃用与重大变更#
文档#
其他#
修复了 openEuler Dockerfile 错误。#6871
多项错误修复,包括:
修复了上游 vLLM 变更引入的 LoRA 精度问题。#6958
修复了负载均衡代理服务器中的流式传输 content-type 问题。#6985
修复了元数据执行错误:整数除以零取模。#6521
修复了 triton rope_siso 实现中的 bug。#7082
修复了 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064
修复了 CANN b020 之后版本的编译错误。#7059
修复了 GLM4.6V 中的量化配置支持问题。#7062
修复了 _merge_multimodal_embeddings 中的参数顺序错误。#7068
修复了 EPLB 中的融合 mc2 错误。#6794
修复了计算槽位映射时的内核块大小问题。#7019
修复了 P/D 解耦中分层堆叠 MTP 的错误。#7036
修复了 npu_rotary_embedding 的 RoPE 维度问题。#6880
修复图模式下 GDN 层精度问题。#6822
修复 PD 解耦中 PCP/DCP 的精度错误。#6876
修复 PD 解耦中的 MTP 问题,为所有 D 节点提供全图支持。#6948
修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012
修复 MTP 预填充被误分类为解码的边缘情况。#6835
修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914
修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939
修复 Qwen2.5VL 精度问题。#6975
修复启用静态内核时的 MoE 前向传播错误。#6964
修复 GLM5 模型的 muls_add 融合问题。#6928
修复多模态模型的 GDN 层检测问题。#6941
修复 300I 非量化模型的权重 nd2nz 错误。#6851
修复 CPU 绑定逻辑。#6889
修复 Eagle 全图形状捕获问题。#6846
已知问题#
目前,对于 DeepSeek v3.2,PCP 和 DCP 尚不能与 FlashComm1 功能协同工作,这可能导致服务错误或其他未知错误。
在采用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中,P 节点在高并发场景(例如,2K/2K tokens 和 512 个并发请求)下进行基准测试时可能出现挂起。
具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个 bug,目前有一个临时解决方案可以避免此问题:显式设置
--compilation-config '{"max_cudagraph_capture_size": N}',其中N = max_concurrency × (1 + num_speculative_tokens)。
v0.15.0rc1 - 2026.02.27#
这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
310P MoE 和 W8A8 支持[实验性]:310P 现已支持 MoE 模型、W8A8 量化和 weightNZ 功能,显著扩展了硬件能力。#6530 #6641 #6454 #6705
Qwen3-VL-MoE EAGLE 支持:为 Qwen3-VL-MoE 模型添加了 EAGLE 推测式解码支持。#6327
Kimi-K2.5 模型支持:添加了对 Kimi-K2.5 模型的支持。请注意,vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题,请应用上游
vllm-project/vllm仓库的更改,特别是来自拉取请求 #33320 和 #34501 的更改。#6755
功能#
自动检测量化格式:现在可以从模型文件自动检测量化格式。#6645
GPT-OSS Attention 支持:添加了 GPT-OSS attention 实现。#5901
SFA 的 DCP 支持:为 SFA 架构添加了解码上下文并行 (DCP) 支持。#6563
Mooncake 分层 PCP 支持:Mooncake 分层连接器现在支持 PCP 功能。#6627
Mooncake 连接器远程 PTP 大小:Mooncake 连接器现在可以获取远程 PTP 大小。#5822
KV 池稀疏注意力:KV 池现在支持稀疏注意力。#6339
使用 AscendC 实现批处理不变性:使用 AscendC 实现了批处理不变性功能。#6590
路由重放:新增路由重放功能。#6696
压缩张量 MoE W4A8 动态权重:新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889
GLM4.7-Flash W8A8 量化:为 GLM4.7-Flash 新增 W8A8 量化支持。#6492
DispatchGmmCombineDecode 增强:DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393
RMSNorm 动态量化融合:新增 rmsnorm 动态量化融合 pass。#6274
工作进程健康检查接口:为工作进程新增
check_health接口。#6681
硬件与算子支持#
性能#
多模态 seq_lens CPU 缓存:使用
seq_lensCPU 缓存以避免频繁的 D2H 拷贝,从而提升多模态性能。#6448DispatchFFNCombine 优化:优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707
DeepSeek V3.2 KVCache 优化:优化了 DeepSeek V3.2 的 KV 缓存使用。#6610
MLA/SFA 权重预取:重构了 MLA/SFA 权重预取,使其与 MoE 权重预取保持一致。#6629
MLP 权重预取:重构了 MLP 权重预取,使其与 MoE 模型的预取机制保持一致。#6442
自适应块大小选择:在 linear_persistent 内核中新增自适应块大小选择功能。#6537
EPLB 内存优化:减少了 EPLB 中用于热度聚合的内存占用。#6729
内存迁移与中断核心绑定:改进了绑定逻辑,增加了内存迁移和中断核心绑定功能。#6785
Triton 稳定性:提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301
依赖项#
Mooncake:升级至 v0.3.8.post1。#6428
弃用与重大变更#
文档#
其他#
PD 全图中的 MTP:修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472
DeepSeekV3.1 精度:修复了 DeepSeekV3.1 的精度问题。#6805
EAGLE 重构:已将 MTP 路由至 EAGLE,但 PCP/DCP+MTP 的情况除外。#6349
推测解码准确性:修复了 vLLM 0.15.0 中的推测接受率问题。#6606
PCP/DCP 准确性:修复了 PCP/DCP 在使用推测解码时的准确性问题。#6491
KV 池 Mooncake 后端:正确初始化了 mooncake 后端的 head_or_tp_rank。#6498
分层连接器重计算调度器:分层连接器现在支持重计算调度器。#5900
内存缓存池:修复了启用内存缓存池时服务启动失败的问题。#6229
AddRMSNormQuant:修复了 AddRMSNormQuant 未生效的问题。#6620
池化代码:修复了池化代码问题并更新了使用指南。#6126
上下文并行:修复并统一了 PD 请求判别逻辑。#5939
npugraph_ex:修复了重复模式问题,并为 allreduce rmsnorm 融合通道添加了额外检查。#6513 #6430
RecomputeScheduler:修复了 RecomputeScheduler 与 vLLM v0.14.1 不兼容的问题。#6286
v0.13.0 - 2026年02月06日#
这是 vLLM Ascend v0.13.0 的最终版本。请按照 官方文档 开始使用。
亮点#
模型支持
DeepSeek-R1 & DeepSeek-V3.2:[实验性]性能优化和异步调度增强。#3631 #3900 #3908 #4191 #4805
Qwen3-Next:[实验性]全面支持 Qwen3-Next 系列模型(包括 80B-A3B-Instruct),支持全图模式、MTP、量化(W8A8)、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。#3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770
LongCat-Flash:[实验性]添加了对 LongCat-Flash 模型的支持。#3833
minimax_m2:[实验性]添加了对 minimax_m2 模型的支持。#5624
Whisper 与交叉注意力:[实验性]添加了对交叉注意力和 Whisper 模型的支持。#5592
池化模型:[实验性]添加了对池化模型的支持,并进行了 PCP 适配,修复了多个与池化相关的 bug。#3122 #4143 #6056 #6057 #6146
PanguUltraMoE:[实验性]添加了对 PanguUltraMoE 模型的支持。#4615
核心功能
上下文并行 (PCP/DCP):[实验性] 全面支持预填充上下文并行 (PCP) 和解码上下文并行 (DCP),集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能,欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672
全图模式 (ACLGraph):[实验性]增强了全图模式,支持 GQA,进行了内存优化,统一了 ACLGraph 与 Torchair 之间的逻辑,并提高了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118
多令牌预测 (MTP):显著改进了 MTP 支持,包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下都能工作,建议使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477
预填充-解码解耦:将 ADXL 引擎设置为解耦预填充的默认后端,提升了性能和稳定性。为 DeepSeek 解码节点添加了对 KV NZ 特性的支持。#3761 #3950 #5008 #3072
KV 池与 Mooncake:增强了 KV 池,支持 Mooncake 连接器用于 PCP/DCP、多输入后缀,并提升了 Layerwise Connector 的性能。#3690 #3752 #3849 #4183 #5303
EPLB(弹性预填充负载均衡):[实验性]EPLB 现已更加稳定,修复了多个错误。混合放置现已可用。#6086
仅全解码模式:在 full_decode_only 模式下添加了对 Qwen3-Next 和 DeepSeekv32 的支持,并修复了相关错误。#3949 #3986 #3763
Model Runner V2:[实验性]添加了对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210
功能#
硬件与算子支持#
性能#
本版本添加了许多自定义算子和 Triton 内核以加速模型性能:
DeepSeek 性能:[实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用,提升了 DeepSeek V3.2 的性能。#4805 #2713
FlashComm:通过 o_shared linear 和通信域修复增强了 FlashComm v2 优化。#3232 #4188 #4458 #5848
MoE 优化:针对 MoE 模型优化了 all2allv 并增强了 all-reduce 跳过逻辑。#3738 #5329
注意力优化:将注意力更新流移出循环,为长序列优化将 BSND 格式转换为 TND 格式,并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390
量化性能:在 Allgather EP 中将量化操作移至 allgather 之前。#3420
Layerwise 连接器:[实验性]提升了 Layerwise Connector 的性能。#5303
前缀缓存:提升了前缀缓存特性的性能。#4022
Rope 嵌入:使用 Triton 内核优化了 rope 嵌入,带来巨大的性能提升。#5918
采样:新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098
多模态:在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204
依赖项#
弃用与重大变更#
CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。
ProfileExecuteDuration 功能 已弃用。
Ascend 调度器 已被移除。#4623
Torchair 已被移除。#4814
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除,建议使用
VLLM_ASCEND_ENABLE_PREFETCH_MLP替代,因为它们通常总是同时启用。#5272VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270
由于我们注意到在某些浮点权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878
additional_config中的 chunked_prefill_for_mla 现已被移除。#5296additional_config中的 dump_config 已重命名为dump_config_path,且类型从dict更改为string。#5296用于嵌入模型的 --task 参数 已弃用。#5257
VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。默认将在解码节点启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。
文档#
新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南
新增了多个模型的教程,包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型
更新了常见问题解答和配置文档
其他#
OOM 修复:VL 模型上的 OOM 错误现已修复。我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136
Qwen3-Next-MTP 精度:修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932
ZMQ 错误修复:修复了 zmq 发送/接收失败的错误。#5503
权重转置:修复了 RL 场景中的权重转置问题。#5567
Eagle3 SP:使 SP 适配 eagle3。#5562
GLM4.6 MTP:GLM4.6 现在支持全图模式下的 MTP。#5460
Flashcomm2 Oshard:Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723
细粒度共享专家重叠:支持细粒度的共享专家重叠。#5962
已知问题#
由于
transformers包的升级,某些模型的量化权重(如qwen2.5vl、gemma3、minimax)可能无法工作。我们将在下一个补丁版本中修复此问题。#6302Qwen3-32B在 128K 输入长度场景下的性能可能不佳,建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。Qwen3-235B、Qwen3-480B在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个补丁版本中改进。在预填充-解码场景下部署 deepseek3.1 时,请确保解码节点的 TP 大小大于 1。
TP=1无法工作。这将在下一个 CANN 版本中修复。
v0.14.0rc1 - 2026年1月26日#
这是 vLLM Ascend v0.14.0 的第一个候选发布版本。请按照 官方文档 开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级,请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。
亮点#
功能#
性能#
CPU 绑定逻辑和性能已得到改进。#5555
合并 Q/K 拆分以简化 AscendApplyRotaryEmb,从而提升性能。#5799
新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在
--additional_config中设置fuse_allreduce_rms=True以启用它。#5034使用 triton 内核优化 rope embedding,以获得巨大的性能提升。#5918
支持无 top_k 约束的高级 apply_top_k_top_p。#6098
在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204
其他#
model runner v2 支持 triton 惩罚算子。#5854
model runner v2 支持 eagle 推测式解码。#5840
通过默认设置
expandable_segments:True修复多模态推理 OOM 问题。#5855VLLM_ASCEND_ENABLE_MLAPO默认设置为True。在 PD 部署场景中,解码节点会自动启用此功能。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。#5952对于使用 mooncake 分层连接器的 PD 部署,SSL 配置可以设置到 kv_extra_config 中。#5875
支持
--max-model-len auto。#6193
依赖项#
torch-npu 已升级至 2.9.0 版本。#6112
弃用与重大变更#
EPLB 配置选项已移至 additional config 中的
eplb_config。旧选项在此版本中已被移除。性能分析器环境变量,例如
VLLM_TORCH_PROFILER_DIR和VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,现已不再适用于 vLLM Ascend。请改用 vLLM 的--profiler-config参数。#5928
已知问题#
如果您有时遇到来自
EngineCore进程的 pickle 错误,请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。
v0.13.0rc2 - 2026年1月24日#
这是 vLLM Ascend v0.13.0 的第二个候选发布版本。在此 rc 版本中,我们修复了大量错误并提升了多款模型的性能。请按照 官方文档 开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。
亮点#
在此版本中,我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误,并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 等模型的性能。
功能#
模型支持#
性能#
此版本中添加了许多自定义算子和 triton 内核,以加速模型性能。例如
RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine等。提升了 Layerwise Connector 的性能 #5303
其他#
基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代引擎,将在未来版本中默认使用。#5210
修复了 zmq 发送/接收可能失败的 bug #5503
支持 Qwen3-Next-MTP 使用全图模式 #5477
修复了强化学习场景中的权重转置问题 #5567
使 SP 适配 eagle3 #5562
上下文并行(PCP&DCP)支持 mlapo #5672
GLM4.6 支持全图模式下的 mtp #5460
Flashcomm2 现已支持 oshard 通用化特性 #4723
支持为 Eagle 草稿模型设置 tp=1 #5804
Flashcomm1 特性现已支持 qwen3-vl #5848
支持细粒度共享专家重叠 #5962
依赖项#
CANN 已升级至 8.5.0
torch-npu 已升级到 2.8.0.post1。请注意,该版本默认不会安装,请从 pypi 镜像站 手动安装。
triton-ascend 已升级至 3.2.0
弃用与重大变更#
v0.13.0rc1 - 2025.12.27#
这是 vLLM Ascend v0.13.0 的第一个候选发布版本,在此版本中完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend,请按照 官方文档 开始使用。
亮点#
功能#
性能#
一些常规性能改进:
添加 l2norm triton 算子 #4595
为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077
在模型执行时添加异步指数计算。#4501
移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390
为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。
其它#
弃用与重大变更#
移除了
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常同时启用。#5272现已废弃
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。#5270由于在某些 float 权重场景下性能不佳,现已针对该场景禁用了
VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878现已废弃
additional_config中的chunked_prefill_for_mla。#5296additional_config中的dump_config已重命名为dump_config_path,且类型从dict更改为string。#5296
依赖项#
已知问题#
v0.11.0 - 2025.12.16#
我们很高兴地宣布 vLLM Ascend v0.11.0 正式发布。这是 v0.11.0 的官方版本。请按照 官方文档 开始使用。如有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。
亮点#
其它#
弃用公告#
LLMdatadist connector 已被弃用,将在 v0.12.0rc1 中移除。
Torchair graph 已被弃用,将在 v0.12.0rc1 中移除。
Ascend scheduler 已被弃用,将在 v0.12.0rc1 中移除。
升级说明#
torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。
CANN 已升级至 8.3.rc2。
已知问题#
在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。并且如果输入过长,会导致内存溢出(OOM)。我们将在下一个版本中改进此问题。
在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认无法工作。临时解决方案是将
--gpu-memory-utilization设置为合适的值,例如 0.8。如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。
v0.12.0rc1 - 2025.12.13#
这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。
亮点#
DeepSeek 3.2 现已稳定且性能得到提升。在此版本中,您无需安装任何其他软件包。请按照 官方教程 开始使用。
现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。
核心#
[实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认未启用,但我们建议在大多数情况下通过
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中持续改进并默认启用它。新增了大量 triton 内核。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认未安装且未启用,但我们建议在大多数情况下启用它。您可以从 软件包地址 手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。
新增了大量昇腾算子以提升性能。这意味着从本版本开始,vLLM Ascend 仅在使用自定义算子构建的情况下才能工作。因此,我们移除了环境变量
COMPILE_CUSTOM_KERNELS,您现在无法再将其设置为 0。推测解码方法
MTP现已更加稳定。它可以在大多数情况下启用,且解码令牌数量可以设置为 1、2、3。现已支持推测解码方法
suffix。感谢招商银行的贡献。llm-compressor 量化工具的 W8A8 现已可用。您现在可以直接部署使用该工具生成的 W8A8 量化模型。
W4A4 量化现已可用。
现已支持池化(Pooling)模型,例如 bge、reranker 等。
官方文档已得到改进。我们重构了教程以使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。
其它#
[实验性功能] 现已支持 Mooncake 分层连接器。
[实验性功能] 新增了 KV 缓存池 功能
[实验性功能] 引入了一种新的图模式
xlite。它在某些模型上表现良好。请按照 官方教程 开始使用。已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。
已移除 Ascend 调度器。
--additional-config {"ascend_scheduler": {"enabled": true}}不再生效。已移除 Torchair 图模式。
--additional-config {"torchair_graph_config": {"enabled": true}}不再生效。请改用 aclgraph。已移除
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION环境变量。该功能已足够稳定,我们现在默认启用它。推测解码方法
Ngram现已回归。新增了 msprobe 工具以帮助用户检查模型精度。请按照 官方文档 开始使用。
新增了 msserviceprofiler 工具以帮助用户分析模型性能。请按照 官方文档 开始使用。
升级说明#
已移除 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。
CANN 已升级至 8.3.RC2,PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装它们。
已停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。
已知问题#
DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下个版本中修复此问题。#4990
DeepSeek 3.2 无法与聊天模板配合使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。
在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下个版本中修复此问题。#4996
我们注意到 bf16/fp16 模型性能不佳,这主要是因为默认启用了
VLLM_ASCEND_ENABLE_NZ。请设置VLLM_ASCEND_ENABLE_NZ=0来禁用它。我们将在下个版本中添加自动检测机制。推测解码方法
suffix无法工作。我们将在下个版本中修复此问题。您可以通过拣选(pick)此提交来修复该问题:#5010
v0.11.0rc3 - 2025.12.03#
这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。
亮点#
其它#
v0.11.0rc2 - 2025.11.21#
这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。
亮点#
核心#
其它#
修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。#4106 #4282
修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。#3711
修复了多模态(vl)模型无法在 x86 机器上运行的问题。#4285
预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。#4242
增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。#4315
增加了一项检查,以确保 FLASHCOMM 功能不与视觉语言(vl)模型一同使用。该功能将在 2025 年第四季度得到支持。#4222
容器中已安装音频所需的库。#4324
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。
亮点#
前缀缓存(PrefixCache)和分块预填充(Chunked Prefill)默认已启用。#3967
现已支持 W4A4 量化。#3427。官方教程请见 single_npu_qwen3_w4a4。
核心#
提升了 Qwen3 和 DeepSeek V3 系列模型的性能。
现已支持 Mooncake 分层连接器 #2602。教程请见 pd_disaggregation_mooncake_multi_node。
现已支持多 token 预测(MTP > 1)。#2708
[实验性] 现已支持图模式
FULL_DECODE_ONLY!FULL模式将在未来几周内推出。#2128现已支持池化模型(如 bge-m3)。#3171
其它#
已知问题#
在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。
Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。
在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器的一个 bug,我们正在修复中。
Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将
--gpu-memory-utilization设置为一个合适的值,例如 0.8。当启用专家并行运行 Qwen3-Next 时,请将
HCCL_BUFFSIZE环境变量设置为合适的值,例如 1024。在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将
cudagraph_capture_sizes设置为合适的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
W8A8 量化的性能得到提升。#2275
修复了应用投机解码和 aclgraph 时出现的资源限制错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充阶段滑动窗口注意力的 bug。#2758
新增了 Qwen3 预填充-解码解耦的官方文档。#2751
环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP现已恢复生效。#2740为 DeepSeek 的 oproj 新增了一项优化。设置
oproj_tensor_parallel_size即可启用此功能。#2167修复了设置
graph_batch_sizes时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1和VLLM_ASCEND_ENABLE_FLASHCOMM=1即可启用。#2779通过预取功能提升了 Qwen3 密集模型的性能。设置
VLLM_ASCEND_ENABLE_PREFETCH_MLP=1即可启用。#2816通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
新增 warm_up_atb 步骤以加速推理。#2823
修复了 MoE 模型在 aclgraph 模式下的流错误。#2827
已知问题#
当在预填充和解码阶段使用不同的 TP 大小运行预填充-解码解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将
max_model_len和gpu_memory_utilization设置为合适的值,以避免内存溢出错误。我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941
在使用 Ascend 调度器时,请勿同时启用分块预填充和前缀缓存,否则性能和精度将不理想或不正确。#2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
Bug 修复:
通过大量 PR 提升了性能:
通过一批重构 PR 增强了代码架构:
参数变更:
在
additional_config中增加了lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309移除了若干不再使用的环境变量:
HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT以及LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT现已更名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450增加了环境变量
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120从环境变量中移除了
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中增加了enable_prefetch,用于控制是否启用权重预取。#2465在
additional_config.torchair_graph_config中增加了mode参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461additional_config中的enable_shared_expert_dp现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。
在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南。
请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。
亮点#
已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程 和 大规模专家并行。
Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程。
V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。
支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。
投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。
现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南。
V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程。
增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。
注意#
以下说明特别供从上一个正式版本(v0.7.3)升级时参考:
从此版本起不再支持 V0 引擎。请务必设置
VLLM_USE_V1=1以在 vLLM Ascend 中使用 V1 引擎。此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。
核心#
为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。
结构化输出(Structured output)功能现在可以在 V1 引擎上运行。
增加了一批自定义算子以提升性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。
此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。
如果在 eager 模式下使用 w4a8 量化,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免显存溢出(OOM)。使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654
我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。
核心#
MTP 现在支持 V1 调度器。#2371
增加了 LMhead 张量并行(TP)通信组。#1956
修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478
修复了由过时的
apply_grammar_bitmask方法导致的grammar_bitmask索引越界(IndexError)错误。#2314移除了
chunked_prefill_for_mla参数。#2177修复了 bug 并重构了缓存掩码生成逻辑。#2326
修复了关于 Ascend 调度器的配置检查逻辑。#2327
在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368
修复了 Ray 分布式后端失效的问题。#2306
修复了 Ascend 调度器中错误的请求块长度。#2394
修复了 RoPE 中的头文件包含问题。#2398
修复了 MTP 的配置 bug。#2412
修正了错误信息并适配了
attn_metadata的重构。#2402修复了因配置不匹配及
.kv_cache_bytes文件缺失导致的 torchair 运行错误。#2312将
with_prefill阶段的 allreduce 从 CPU 迁移至 NPU。#2230
文档#
增加了 DeepSeek 大规模专家并行(EP)的文档。#2339
已知问题#
修复了 A2 (910B1) 上开启
"full_cuda_graph": True时test_aclgraph.py失败的问题。#2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级至
2.7.1.dev20250724。#1562。CANN 已升级至8.2.RC1。#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582
vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162
V1 引擎现已支持流水线并行(Pipeline Parallelism)。#1800
前缀缓存(Prefix cache)功能现在可与 Ascend 调度器协同工作。#1446
Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508
MTP 现在支持 torchair 图模式。#2145
其他#
Bug 修复:
通过大量 PR 提升了性能:
将 sin/cos 进行缓存,而非在每一层都重新计算。#1890
改进了共享专家(shared expert)的多流并行性。#1891
实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1可启用此特性。#1926通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195
在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806
使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555
提升了 LoRA 的性能。#1884
通过一批重构 PR 增强了代码架构:
参数变更:
additional_config中的expert_tensor_parallel_size现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681增加了环境变量
VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。增加了环境变量
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用MatmulAllReduce融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。增加了环境变量
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。
在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。
序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209
现已增加中文在线文档。#1870
已知问题#
目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229
在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232
在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246
MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254
当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录器(metrics logger)。#2254
v0.9.1rc2 - 2025.08.04#
这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。
亮点#
模型改进#
DeepSeek DBO 支持与改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 在 rmsnorm/repo/mlp 算子方面的性能改进:#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 在分块预填充/图模式/多流方面的改进与错误修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
通过改进 mrope/padding 机制提升 Qwen2.5 VL 性能:#1261 #1705 #1929 #2007
图模式改进#
在 #1269 中修复了 DeepSeek 与 mc2 配合使用的问题。
在 #1332 中修复了 DeepSeek V3/R1 模型在使用 TorchAir 图模式进行长序列预测时的精度问题。
在 #1570 中修复了
torchair_graph_batch_sizes错误。在 #1404 中为 TorchAir 图模式启用了 tp <= 4 的限制。
修复 RoPE 精度错误 #1887。
在 FusedMoE 中支持共享专家的多流处理 #997。
在 TorchAir 图模式的解码过程中启用
kvcache_nz#1098。修复 TorchAir 下的分块预填充场景,解决 #1378 中的
UnboundLocalError: local variable 'decode_hs_or_q_c'问题。在 #1561 中提升了 w8a8 动态量化下共享专家的多流性能。
修复设置多流时的 MoE 错误 #1882。
在 EP 场景下将图批次大小向上取整至 TP 大小的倍数 #1610
修复启用 DP 时的 TorchAir 错误 #1727
为
torchair_graph_config添加额外检查 #1675修复 TorchAir + 分块预填充场景下的 RoPE 错误 #1693
修复
chunked_prefill为 true 时的torchair_graph错误 #1748改进预填充优化以支持 TorchAir 图模式 #2090
修复 DP 场景下的 rank 设置问题 #1247
重置所有未使用的位置以防止越界,从而解决 GatherV3 错误 #1397
移除 ModelRunner 中重复的多模态代码 #1393
修复块表形状以解决精度问题 #1297
在受限场景下实现初步的全图模式 #1503
为提升性能,在全图模式中恢复分页注意力内核 #1677
修复极端
--gpu-memory-utilization设置下的 DeepSeek OOM 问题 #1829在启用 TorchAir 时关闭 aclgraph #2154
算子改进#
核心#
将 CANN 升级至 8.2.rc1 #2036
将 torch-npu 升级至 2.5.1.post1 #2135
将 Python 升级至 3.11 #2136
禁用了
mindie_turbo中的量化 #1749修复了 V0 投机解码 #1323
仅在使用 V0 投机解码时直接启用
ACL_OP_INIT_MODE=1#1271重构了
forward_context和model_runner_v1#1422修复了采样参数 #1423
增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ #1409
通过处理
PrefillCacheHit状态修复了前缀缓存精度错误 #1492修复了权重加载错误并增加了新的端到端测试用例 #1651
优化了 DeepSeek 中与 RoPE 相关的索引选择次数 #1614
增加了 mc2 掩码 #1642
为预填充增加了分块 mc2 #1703
修复了 mc2 算子的
GroupCoordinator错误 #1711修复了无法识别实际量化类型的问题 #1721
修复了 DeepSeek 在
tp_size == 1时的错误 #1755增加了预填充节点对无延迟块的支持 #1691
针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO #1547
适配了
dispatchV2接口 #1822修复了解耦预填充在长输出时的挂起问题 #1807
修复了 V0 引擎下的
flashcomm_v1问题 #1859修复了某些情况下
ep_group不等于word_size的问题 #1862修复了 wheel 包 glibc 版本不兼容的问题 #1808
修复了 mc2 进程组以解决
self.cpu_group为 None 的问题 #1831将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查 #1904
为 MoE 应用了
npu_moe_gating_top_k_softmax以提升性能 #1902修复了 V0 引擎下
path_decorator的 bug #1919避免了在解耦预填充场景下执行 CPU all_reduce #1644
为解码阶段的 MoE 增加了 super kernel #1916
[预填充性能] 并行策略优化(显存换速度的权衡) #1802
移除了
shared_experts.down_proj中不必要的reduce_results访问 #2016通过向量化优化了 greedy reject 采样器 #2002
实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode) #1936
修复了 DeepSeek 模型在启用 tp > 1 和
multistream_moe时,共享专家与路由专家之间的形状冲突问题 #2075增加了 CPU 绑定支持 #2031
在 #2129 中增加了
with_prefillCPU allreduce 以处理 D 节点的重计算。在 #2038 中增加了 D2H 和
initRoutingQuantV2以提升预填充性能。
文档#
已知问题#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。
亮点#
核心#
其他#
官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。
修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为0。#1335新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478
Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483
已知问题#
流水线并行(Pipeline parallel)无法与 Ray 和图模式共同工作:vllm-project/vllm-ascend#1751 vllm-project/vllm-ascend#1754
新贡献者#
@xleoken 在 vllm-project/vllm-ascend#1357 中做出了首次贡献
@lyj-jjj 在 vllm-project/vllm-ascend#1335 中做出了首次贡献
@sharonyunyun 在 vllm-project/vllm-ascend#1194 中做出了首次贡献
@Pr0Wh1teGivee 在 vllm-project/vllm-ascend#1308 中做出了首次贡献
@leo-pony 在 vllm-project/vllm-ascend#1374 中做出了首次贡献
@zeshengzong 在 vllm-project/vllm-ascend#1452 中做出了首次贡献
@GDzhu01 在 vllm-project/vllm-ascend#1477 中做出了首次贡献
@Agonixiaoxiao 在 vllm-project/vllm-ascend#1531 中做出了首次贡献
@zhanghw0354 在 vllm-project/vllm-ascend#1476 中做出了首次贡献
@farawayboat 在 vllm-project/vllm-ascend#1591 中做出了首次贡献
@ZhengWG 在 vllm-project/vllm-ascend#1196 中做出了首次贡献
@wm901115nwpu 在 vllm-project/vllm-ascend#1654 中做出了首次贡献
完整更新日志: vllm-project/vllm-ascend
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
实验性功能#
本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333
支持 EAGLE-3 进行推测式解码。#1032
经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。
核心#
其他改进#
为 MLA 初步支持分块预填充(Chunked Prefill)。#1172
新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持在 AscendScheduler 中使用推测式解码功能。#943
提升了
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884
修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186
重构 AscendFusedMoE #1229
新增初始用户故事页面(包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224
新增单元测试框架 #1201
已知问题#
完整更新日志#
新贡献者#
@farawayboat 在 vllm-project/vllm-ascend#1333 中做出了首次贡献
@yzim 在 vllm-project/vllm-ascend#1159 中做出了首次贡献
@chenwaner 在 vllm-project/vllm-ascend#1098 中做出了首次贡献
@wangyanhui-cmss 在 vllm-project/vllm-ascend#1184 中做出了首次贡献
@songshanhu07 在 vllm-project/vllm-ascend#1186 中做出了首次贡献
@yuancaoyaoHW 在 vllm-project/vllm-ascend#1032 中做出了首次贡献
完整更新日志: vllm-project/vllm-ascend
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理此问题,并将在下一版本中修复。
多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包含以下更改:
亮点#
漏洞修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。
亮点#
本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。
将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708
核心#
现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1。#715
修复了在 profile_run 期间
CustomDeepseekV2MoE.forward过早返回的问题。#682适配了由 modelslim 生成的新量化模型。#719
初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git目录,以修复在/workspace下启动 vLLM 时的问题。#726优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728
修复了
setup.py中PYTHON_INCLUDE_PATH的拼写错误。#762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策。
亮点#
核心#
为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543
支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南。#432
推测解码(Speculative Decoding)功能现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500
结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555
其他#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出
!!!的问题。#406
模型#
通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250308.3 以提升
_exponential的精度。新增对池化模型的初步支持。基于 BERT 的模型,例如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。#229
模型#
其他#
为 DeepSeek V3/R1 提供多令牌预测(MTP)支持。#236
【文档】新增了更多模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档。
在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决:vllm-project/vllm#13807
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。
vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能与改进。
请遵循官方文档开始您的旅程。请注意,这是一个候选发布版本,可能存在一些错误或问题。我们感谢您的反馈和建议,请通过此问题提交。
亮点#
在 vLLM 上提供对 Ascend NPU 的初步支持。#3
同时支持 Qwen、Llama 系列及其他流行模型,您可以在 supported_models 中查看更多详情。
核心#
其他#
已知问题#
本版本依赖于一个尚未正式发布的 torch_npu 版本,该版本已预装在官方容器镜像中。若您在非容器环境下运行,请手动安装。
运行 vllm-ascend 时可能会出现类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。运行 vllm-ascend 时可能会出现类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,其本应显示为# NPU blocks:。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。