版本说明#
v0.20.2rc1 - 2026.06.03#
We're excited to announce the release of v0.20.2rc1 for vLLM Ascend. This is the first release candidate for the v0.20.2 release line. Please follow the official doc to get started.
亮点#
DeepSeek V4 Support: Added end-to-end support for DeepSeek V4, including the model architecture, DSA attention backend, KV cache management, distributed inference, tool-call parser, MTP support, KV Pool adaptation, and custom operator enablement. #9270 #9385 #9228
A5 and XLite Quantization Expansion: Added MXFP4 flatquant with row parallelism for Ascend A5 and expanded XLite support to GLM-4.7 W8A8 quantization. #9391 #9415
功能#
Added Flash Attention 3 support for training-inference consistency. The backend is ready in vLLM Ascend and will become directly usable once the FA3 package is publicly available. #9060
Added DeepSeek PCP/DCP adaptation to improve support for disaggregated deployments. #9058
Added a dedicated
additional_config.enable_dsa_cpswitch to decouple DSA-CP from FC1. DSA-CP now requires both FC1 and DSA-CP to be explicitly enabled, allowing FC1 to stay enabled while DSA-CP is disabled when needed. #9878Added merged graph support for DFlash workloads. #9074
Added LoRA support for Qwen3.5 dense models. #9023
Added KV pool adaptation for DeepSeek V4 and separated MTP-layer KV cache sharding for DeepSeek V4 speculative decoding. #9385 #9367
硬件与算子支持#
Added DeepSeek V4 custom operators required for the new model path, registered the operators for Ascend 910B, and switched the DeepSeek V4
hc_prepath to a fused operator. #9228 #9339 #9396Enabled MXFP4 flatquant and row parallel support on Ascend A5. #9391
Enabled MC2 dispatch and combine support for MXFP4/MXFP8 quantization on Ascend A5. #9365 #9328
Improved 310P support by optimizing fused operators for Qwen3.5 Dense ACLGraph and simplifying the 310P RMSNormGated path. #9104 #9489
性能#
Added DeepSeek V4 DSA multistream overlap optimizations across compressor, indexer-select, CV parallel, and pure-prefill compute-communication overlap paths. #9450 #9441 #9433 #9504
Reused DSA
topk_indicesacross decode steps with IndexCache to reduce repeated DeepSeek V4 index computation. #9390Fixed the missing enablement for
cv_indexer_qkv_preparemultistream parallelism in the new overlap path. #9530Reduced host-device synchronization overhead by removing the sync point in PIECEWISE mode. #9025
Optimized shared expert overlap timing in FusedMoE. #9413
[Experimental] Added reduce sampling with
enable_reduce_sampleto lower Tensor Parallel communication overhead in distributed greedy, top-k/top-p, and rejection sampling paths. #8308
Stability and Bug Fixes#
依赖项#
Breaking Changes and Migration Notes#
Migrated a set of runtime options from environment variables to
AscendConfig, including the FC1/FlashComm1 switch fromVLLM_ASCEND_ENABLE_FLASHCOMM1toadditional_config.enable_flashcomm1. Please review configuration code and deployment manifests when upgrading. #9064Disabled SwiGLU clamp by default, which may slightly change behavior for workloads that previously relied on the old default. #9438
文档#
已知问题#
GLM5/GLM5.1 W4A8 deployments have known issues in some advanced configurations. #9395
Qwen3.6-35B-A3B may shut down when MTP/speculative decoding is enabled, with
numAcceptedTokens[0]=4 exceeds varlen segment length=3reported during shape/dtype processing. #9956GLM-5.1 can hang on the P node in 200K long-sequence 1P1D agent workloads after long-running service, with
MoeDistributeDispatchV2/aclnnMoeDistributeDispatchV4reporting an AICore timeout. #9958GLM5 W4A8 deployments can see a significantly lower speculative decoding acceptance rate when MTP3 is used together with FlashComm. #9803
MiniMax-M2.7 W8A8/QuaRot can show lower-than-expected GPQA accuracy in long-sequence deployments when PCP/DCP is combined with Eagle3 speculative decoding. #9959
KV Pool feature for DeepSeek V4 now faces several known issues affecting user-friendliness and performance, including special startup parameter requirements, special key storing behaviors, etc. For details, please refer to issue #9975.
v0.18.0 - 2026.04.30#
我们很高兴地宣布 vLLM Ascend v0.18.0 正式发布。这是 v0.18.0 的正式版本。请按照 官方文档 开始使用。
亮点#
模型支持
Kimi-K2.x 模型支持:[实验性]添加了对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755
Minimax-m2.x 模型支持:[实验性]添加了对 Minimax-m2.x 模型的支持,支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714
GLM5 支持:[实验性]无需任何代码修改即可支持 GLM5 模型!
Qwen3.x 支持:[实验性]无需任何代码修改即可支持 Qwen3.x 模型!
DeepseekOCR 支持:[实验性]添加了对 DeepseekOCR 模型的支持,并优化了
RelPosAttention和CustomQwen2Decoder。@Wangbei25 #7737
核心功能
EPLB(专家并行负载均衡):EPLB 经过大量 bug 修复后更加稳定,性能也得到提升。EPLB 现在在大多数情况下都能正常工作,推荐使用。#6528 #7344 #7890 #6477
ACLGraph 增强:ACLGraph 现在支持为多步草稿捕获单个合并图,大大减少了多步推测解码场景中的 host bound!#5553 #5940
KV 池化:增强的 KV 池与 Mooncake 连接器现在支持稀疏注意力,LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案被添加,支持 HIXL 互联的 FabricMem 模式,支持 yuanrong 作为 AscendStoreConnector 的后端,并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前的版本相比,KV 池化在 TTFT 上实现了巨大的性能优化!#6339 #6882 #6806 #6869 #7032
PD 分离:Mooncake layerwise 连接器现在支持混合注意力管理器和 PCP 功能。#7022 #6627
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
RL(强化学习):[实验性]通过 AscendC 和 triton op 实现了批量不变性功能,增强了 RL,并添加了路由重放功能。#6590 #6696
CPU 绑定默认启用:启用了仅 ARM CPU 绑定,采用全局切片 A3 策略,提高了 hostbound 场景中的推理吞吐量。#6686
功能#
硬件与算子支持#
首次支持 310P,并进行了巨大的性能优化!:
自定义算子:添加了多个自定义算子,包括:
为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661
新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725
为 MoE 模型新增了 GMM 自定义算子。#7010
优化了 split_qkv_rmsnorm_rope 算子。#6827
Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366
优化了
DispatchFFNCombine内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707重构并优化了 CausalConv1d。#7495
性能#
初始化性能:优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645
Qwen3.x 性能:[实验性]通过支持全图模式、PD 分离、mamba prefill 前缀缓存和 flashcomm1、预构建 chunk 元数据以减少主机-设备同步开销,以及多项算子性能优化(包括
chunk_gated_delta_rule、chunk_fwd_kernel_o、solve_tril、recompute_w_u_fwd_kernel、split_qkv_rmsnorm_mrope等),优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368Kimi-K2.x 性能:[实验性]通过支持 eagle3 和 flashcomm1,并减少 d2h 开销,优化了 Kimi-K2.x 的性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521
Qwen3-VL 性能:Qwen3-VL 通过 Flash Comm V1 和
qkv_rmsnorm_mrope支持获得了更强的多模态算子能力,并通过 aclnn BatchMatMulV2 使卷积计算速度提升 2.7 倍,支持 EAGLE 推测解码。#7893 #7852 #7017 #6327Qwen3-Omni 性能:现已提供 Qwen3-Omni 量化适配和优化。#6828
DeepSeek-V3.2/GLM5 性能:性能优化,支持 W8A8C8 量化,并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610
GLM4.7-Flash 性能:为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492
依赖项#
vLLM:已升级至 0.18.0 并停止支持 0.17.0。
CANN:已升级至 8.5.1。附注: 使用 FabricMem 模式的 AscendStoreConnector、310P 设备支持以及 Qwen3-Omni 模型需要将 CANN 版本升级至 9.0.0,如需这些功能,请手动升级。
torch-npu:由于已知问题,已升级至 2.9.0.post1+git4c901a4。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 torch-npu 至 2.9.0.post2。
triton-ascend:由于已知问题,已升级至 3.2.0.dev20260322。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/triton_ascend-3.2.0.dev20260322-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_27_${ARCH}.manylinux_2_28_${ARCH}.whl。附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 triton-ascend 至 3.2.1。
Transformers:已升级至 >= 4.57.4。
Mooncake:已升级至 3.9.0。
${PYTHON_TAG} 是 Python 版本标签,${ARCH} 是 CPU 架构。
例如:python3.11 和 aarch64,${PYTHON_TAG}=cp311,${ARCH}=aarch64。
弃用与重大变更#
文档#
新增了 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169
在常见问题解答中添加了抢占指导。#8136
更新了 Qwen3.5 用户指南。#7934
更新了 DeepSeek-V3.2 的文档配置。#7970
清理了文档的措辞和语法。#8073
更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300
新增了 CPU 绑定的用户/开发者指南。#7045
新增了 Memcache 使用指南。#6476
新增了后缀推测解码的基准测试教程。#6323
新增了 npugraph_ex 介绍文档。#6306
其他#
为捕获模式添加了异步通信检查。#8149
修复了池化场景之间的 KV Pool 冲突,并修复了 vLLM v0.18.0 上缺失的 KV 缓存放置问题。#8101 #7874
通过修正注意力状态处理,修复了短提示转发问题。#8088
为均匀令牌分发恢复了
global_bs=0和mc2_mask,并支持跨节点 RoCE 分层 MC2 通信。#8040修复了 Qwen3-VL 的权重映射器错误。#7868
通过将反向映射改为前向映射,修复了
AscendModelSlimConfig中的量化配置键映射。#7716修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472
分层连接器现在支持重计算调度器。#5900
修复了池化代码问题并更新了使用指南。#6126
NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968
已知问题#
目前,在多 DP 和大令牌数场景(
kv_producer或kv_both)下,不推荐使用VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌,这些令牌将被路由到某些专家,导致某些 rank 接收令牌过载,从而引发精度和性能问题。#8320目前,EPLB 不支持
minimax_m2模型和 W4A8 量化。#8341当预填充请求的调度令牌数小于
1 + num_speculative_tokens时,PCP 和 eagle3 叠加可能会产生错误,这将导致该预填充请求被当作解码请求处理,从而引发错误。#8402不支持 NPU 软分区 +
CUDAGraphMode.PIECEWISE。#8585Qwen3.x 在 PD 解耦场景下存在精度问题。#8421
当前在 x86 架构上存在一个已知问题,该问题已在 CANN 9.0.0 中解决。若要在 x86 上部署 vllm-ascend,请手动升级 CANN 版本。#7993
P/D 代理在重算重试后可能泄漏资源并掩盖 metaserver 错误。#8852
通过 PD 架构分别部署 GLM5 和 Deepseek V3.2 时,存在概率性输出为空或乱码的问题。#8853
对于 PD 分离下 D 节点配置为 TP16 DP2 并行的 GLM 5/5.1,GPQA 精度未达到标准。#8844
v0.19.1rc1 - 2026.04.30#
这是基于 vLLM v0.19.1 的 vLLM Ascend v0.19.1 首个候选发布版本。此版本包含显著的性能优化、新模型支持、硬件扩展以及重要的错误修复。
请按照官方文档开始使用。
亮点#
DFlash Attention 后端:新增 DFlash attention 后端,支持 FULL_DECODE_ONLY 模式以提升推理性能。(#8118, #8516, #8627)
零气泡异步调度:为异步调度和推测解码实现了零气泡优化,显著降低了调度开销。(#7640)
A2/A3 注意力算子升级:将 npu_fusion_attention 替换为 _npu_flash_attention_unpad 算子,以在 A2 和 A3 硬件上获得更佳性能。(#8671)
Eagle3 + MiniMax-M2.5 支持:将 Eagle3 推测解码应用于 MiniMax-M2.5 模型,实现更快的推理。(#7619)
GQA 的 C8 INT8 KV 缓存:为 GQA 注意力模型添加了 C8(INT8 KV 缓存)支持,包括支持 PD 解耦的 DeepSeek-V3.1。(#7474, #7222)
Bailing 模型支持:全面支持 Bailing MoE 模型,包括线性适配和 ModelSlim 量化。(#8657, #8709)
功能#
Qwen3-VL 的 Flash Comm V1:为 Qwen3-VL 多模态模型支持 Flash Comm V1。(#7897)
Eagle + PCP + 全图模式:支持 Eagle 与 PCP 及全图模式的组合。(#7924)
PCP 下的多模态推理:启用预填充上下文并行功能时支持多模态推理。(#8038)
PP 的动态分块:为分块流水线并行支持动态分块。(#7896)
优化的因果 Conv1d 算子:新增优化的因果 conv1d 算子。(#8215)
循环 AscendC 算子:为特定模型架构新增循环 AscendC 算子。(#8055)
GLM4.7 C8 支持:支持 GLM4.7 的 C8(INT8 KV 缓存)场景。(#8174)
Minitron-8B-Base 支持:验证并支持 nvidia/Minitron-8B-Base 模型。(#8157)
Bailing 模型支持:全面支持 Bailing MoE 模型,包含线性适配和 ModelSlim 量化配置。(#8657, #8709)
Qwen3.5 MoE Flash Comm:为 Qwen3.5 MoE 模型支持 Flash Comm。(#7486)
MRv2 的初始 MoE 支持:为 Model Runner V2 添加初始 MoE 模型支持。(#7922)
Xlite 后端扩展:
EPLB 增强:
model_runner_v2 的 Eagle 改进:
MTP 合并图:支持 MTP(多令牌预测)的合并图 (#6860)
统一 MoE 专家放置:支持共享专家和路由专家的统一放置 (#7188)
Dispatch V2 层级通信:支持 dispatch_v2/combine_v2 层级通信以提升 MoE 性能 (#7583)
Dispatch FFN Combine 的 Xmask:为 dispatch_ffn_combine 算子添加 xmask 功能(w8a8 分支)(#8560)
融合 W4A8 内核:将 W4A8 dispatch + FFN + combine 融合为单个内核 (#7779)
KV 缓存内存核算:在 KV 缓存规划中考虑图捕获内存 (#8289)
Qwen3-Next 混合注意力:支持 piecewise 和 full_decode_only 模式下的 Qwen3-next 混合注意力 (#7422)
GDN 优化:优化 GDN 非推测预填充回退元数据 (#7756)
Qwen3-VL 支持:为 Qwen3-VL 支持 kv_rmsnorm_mrope (#7762)
Mamba 前缀缓存:Layerwise connector 支持 Mamba 预填充前缀缓存 (#7814)
Yuanrong KV 池后端:为 KV 池添加 Yuanrong 后端支持 (#6869)
硬件与算子支持#
性能#
A2/A3 注意力:使用 _npu_flash_attention_unpad 算子替换 npu_fusion_attention 以提升性能 (#8671)
MLA PCP 预填充优化:通过避免投影不必要的尾部 KV 令牌来优化 MLA PCP 预填充注意力 (#8787)
异步调度优化:
KV 缓存优化:
算子优化:
Triton 内核优化 (model_runner_v2):
HCCL 进程组复用:在 Ascend 上复用等效的 HCCL 进程组 (#7654)
CPU 绑定延迟:将 CPU 绑定延迟至 worker 预热完成 (#7829)
Conv3d 转 Linear:当 kernel 大小等于 stride 时将 conv3d 转换为 linear (#8318)
依赖项#
文档#
PD 分离指南:
模型文档:
文档改进:
其他#
重要 Bug 修复:
GQA C8 Fullgraph:修复了 GQA C8 fullgraph 模式下的一个 bug (#8779)
DSV3.1 W4A8 TTFT:回退
balance_flag的变更以修复 DSV3.1 W4A8 TTFT 性能下降 (#8675)DSV3.1 服务启动:修复 DeepSeek-V3.1 服务启动失败的问题 (#8208)
Qwen3.5 MoE 高并发:修复 dp>1 时高并发下 Qwen3.5 MoE FC1 错误 (#8396)
Qwen3.5 MoE Flash Comm:修复 A2 上 Qwen3.5 MoE flash comm v1 mtp 层共享专家形状错误 (#7683)
图捕获OOM:修复了 model_runner_v2 中的图捕获内存溢出问题(#8111)
DeepSeek 3.2 C8精度:通过回退量化层修复了 DeepSeek 3.2 C8 的精度问题(#7628)
DeepSeek 3.2 DCP MTP:修复了 ds3.2 dcp mtp 问题(#7617)
MTP1并发崩溃:修复了 MTP1 在多个并发场景下的崩溃问题(#7459)
投机解码+异步:修复了投机解码和异步的 bug(#8461)
投机解码+Logprobs:修复了禁用异步调度时投机解码+logprobs 的崩溃问题(#7861)
重复惩罚:修复了异步调度中 repetition_penalty 无效的问题(#7789)
P/D KV缓存:修复了 P/D 场景中 TP 不相等时 MTP 层的 KV 缓存问题(#8540)
P/D短序列:修复了 P/D 模式下短序列无响应的问题(#8104)
P/D重试机制:添加了重试机制以防止 P/D 中的丢包(#8166)
分层连接器OOM:修复了大缓冲区传输时分层的连接器内存溢出问题(#7834)
KV池Put逻辑:修复了 KV 池未放入 KV 缓存的问题,并修复了 KV 传输的 Put 逻辑(#7875, #7717)
KV池PCP/DCP:修复了 KV 池的 PCP 和 DCP bug(#8099)
Mooncake后端:MooncakeBackend 处理 Ascend 之外的协议(#8514)
FlashComm服务器初始化:修复了使用 FLASHCOMM 时 max_num_seqs 不是 tp 倍数时的服务器初始化错误(#7801)
Triton重装:在 vllm-ascend 安装后重新安装 triton-ascend(#7790)
DBO兼容性:为 Ascend NPU 上的 --enable-dbo 添加了兼容性保护(#8507)
NPU上的GPU参数:在 Ascend NPU 上保护 GPU 特定的并行配置参数(#8703)
A2 CPU绑定:避免隐藏 NPU 导致的 A2 CPU 绑定重叠(#8792)
FIA填充Bug:修复了 EAGLE 最大并发下的 FIA 填充 bug(#7740)
MoE加载精度:修复了 allgather 中 moe_load 的精度问题(#7887)
Qwen的FlashComm1+DCP:支持 Qwen 模型的 FlashComm1 和 DCP(#7673)
块验证:禁用块验证以避免 NPU 上的错误验证(#7603)
Model Runner V2全图:修复了全图模式下的 model_runner_v2(#7945)
MRv2投机解码:修复了 mrv2 在投机解码时的运行时错误(#8209)
GLM工具调用流式:修复了 GLM 工具调用流式问题(#8832)
强制工具选择:修复了强制工具选择的 none-content 处理(#8833)
MiniMax推理用量:修复了 MiniMax 推理用量统计(#8831)
其他Bug修复:
MTP 在 lmhead TP logits 截断后的循环批次大小(#8718)
修复了 DSV32 混合部署中 layer_sharding 导致的错误(#8717)
EPLB topk_ids 使用逻辑专家计数(#8501)
EPLB 验证逻辑优化及 MTP 支持冗余专家(#8710)
SP 在 MoE 序列并行中保留图字符串化(#8780)
SpecDecode 修复 draft quarot 模型加载超时(#8736)
修复 _dummy_run 预热与 --language-model-only 不匹配的问题(#8556)
修复 AscendYaRNRotaryEmbedding 中的 AttributeError(#8734)
Eagle3 添加全图形案例并检查 mock 函数 (#8668)
修复 npu_fused_infer_attention_score_v2 中的 atten_mask (#8387)
修复 eagle 与 dflash 在 pcp 上的冲突 (#8598)
修复 DeepSeek 3.2 PCP+MTP 的 slot 映射错误 (#8547)
dispatch_ffn_combine 内核回滚 (#8539)
层分片需要 KV 生产者 (#8562)
310P 使用 CPU 生成器缓存进行采样 (#8495)
修复 pcp+eagle3 的 compute_slot_mapping triton (#8435)
在 fuse_moe 中处理基于枚举的 MoE 激活 (#8465)
按 PD 模式门控 recompute/balance/fused_mc2 (#8373)
w8a8 dispatch ffn combine 偏置参数适配 (#8342)
修复 flashcomm1 下 GLM-5 的 w8a8_static 中 quant_bias 缺失问题 (#8220)
修复 deepseek v3.2 的 DSA-CP PD 角色门控 (#8290)
逐层 AscendStorConnector 需要分段 cudagraph (#8283)
修复 patch balance 调度器中的远程 KV 等待提升问题 (#8279)
对 CPU 绑定子进程解析强制执行 C 语言环境 (#8251)
在 mlapo 分支 SFA 中添加 wait_for_kv_layer_from_connector (#8195)
修复 SP 填充时的维度不匹配问题 (#7858)
310P 修复 Triton 内核 block_table 崩溃 (#8144)
修复短提示的注意力状态 (#8029)
310P 修复图模式下后采样不工作问题 (#8017)
310P 使 GDN 状态语义与 vLLM 对齐 (#7902)
310P 处理 ShardedStateLoader310 中的空量化配置 (#7546)
在 eager 模式下启用 SP 和 eagle3 时取消填充 block table (#7986)
修复 qwen3-next 编译错误 (#7936)
修复 qwen3-vl 的 weightsmapper 错误 (#7869)
修复量化配置属性错误 (#7736)
移除 eplb 不必要的 weight_scale 包装行为 (#7733)
适配 model runnerv2 的 main2main 并在休眠模式添加垃圾回收 (#7709)
修复嵌入模型的前缀缓存支持 (#7452)
在图+强化学习场景中复用权重地址 (#7473)
已知问题#
在单节点(非 PD 分离)场景下运行 GLM-5 / GLM-5.1 模型时,可能出现错误结果或运行时错误。详情及解决方法请参见 #8843。
triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到
triton-ascend==3.2.0.dev20260322并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782torch-npu:由于已知问题,请升级至 2.9.0.post1+git4c901a4。该版本无法默认安装,请手动升级。安装包可通过以下链接获取:https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。 附注: 如果 CANN 已升级至 9.0.0 版本,请同步升级 torch-npu 至 2.9.0.post2。
v0.18.0rc1 - 2026年04月01日#
这是 vLLM Ascend v0.18.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
性能#
文档#
其他#
已知问题#
在高并发下运行启用了 MTP 和 KV Pool 的 DeepSeek-R1 W8A8 时,可能会出现
ValueError: Counters can only be incremented by non-negative amounts错误。#7489triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到
triton-ascend==3.2.0.dev20260322并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782在 Ascend 上使用 tp-size >= 16 时,FIA 不支持所有的 MHA 头维度。受影响的模型会因不支持的头部维度而出错。这将在未来的版本中,当 FIA 支持更多头部维度时得到解决。#7729
尽管 Minimax-2.5 现在支持 PD 解耦,但内部测试发现启用此功能时,在 GPQA 基准测试上会出现 13% 的性能回退。我们目前不建议为此模型启用 PD 解耦,并且我们正在努力进行优化修复。
v0.17.0rc1 - 2026年03月15日#
这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
支持从模型文件自动检测量化格式,同时也支持远程模型ID(例如
org/model-name)。现在不再需要--quantization ascend参数。#7111从本版本开始支持 Qwen3.5。
用于 EPLB 的 FlashLB 算法:支持每步热度收集和多阶段负载均衡,以提高专家并行效率。#6477
已修复并支持了结合张量并行和
--fully-sharded-loras的 LoRA。#6650新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。#6882
在 PD-mix 场景下,DeepSeek-V3.2 现已支持 W8A8C8 量化。#7029
[实验性] Ascend NPU 现已支持 Minimax-m2.5 模型。#7105
[实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。#7022
[实验性] 混合模型现已支持前缀缓存。#7103
性能#
文档#
其他#
修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。#7139
修复了 310P 上 ngram 图重放的精度错误。#7134
在上游 vLLM 变更后,修复了图模式下的 FIA 填充逻辑。#7144
修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。#7209
修复了在 rank0 设备上产生额外进程的问题。#7107
图捕获失败现在会正确抛出异常,便于调试。#5644
通过将
torch_npu.npu_recurrent_gated_delta_rule替换为fused_recurrent_gated_delta_rule来修复 Qwen3.5 模型。#7109修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156
已知问题#
GLM5 需要 transformers==5.2.0,此问题将通过 vllm-project/vllm#30566 解决,不会包含在 v0.17.0 中。
由于 TP 权重分割方法变更,Qwen3-Next 存在精度问题。将在下个版本中修复。
在混合模型中,当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关,例如,当 TP=2 时,block_size 调整为 2048,这意味着任何短于 2048 的前缀都不会被缓存。
GLM5 在 2 节点 PD 混合部署场景中存在一个问题:当并发数超过 8 时,推理可能会挂起(已在 PR #7235 和 #7290 中修复)。
v0.16.0rc1 - 2026年03月09日#
这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
功能#
硬件与算子支持#
性能#
依赖项#
CANN 已升级至 8.5.1,如果您未使用官方镜像,请记得手动升级。#6897
弃用与重大变更#
文档#
其他#
修复了 openEuler Dockerfile 错误。#6871
多项错误修复,包括:
修复了上游 vLLM 变更引入的 LoRA 精度问题。#6958
修复了负载均衡代理服务器中的流式传输 content-type 问题。#6985
修复了元数据执行错误:整数除以零取模。#6521
修复了 triton rope_siso 实现中的 bug。#7082
修复了 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064
修复了 CANN b020 之后版本的编译错误。#7059
修复了 GLM4.6V 中的量化配置支持问题。#7062
修复了 _merge_multimodal_embeddings 中的参数顺序错误。#7068
修复了 EPLB 中的融合 mc2 错误。#6794
修复了计算槽位映射时的内核块大小问题。#7019
修复了 P/D 解耦中分层堆叠 MTP 的错误。#7036
修复了 npu_rotary_embedding 的 RoPE 维度问题。#6880
修复图模式下 GDN 层精度问题。#6822
修复 PD 解耦中 PCP/DCP 的精度错误。#6876
修复 PD 解耦中的 MTP 问题,为所有 D 节点提供全图支持。#6948
修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012
修复 MTP 预填充被误分类为解码的边缘情况。#6835
修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914
修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939
修复 Qwen2.5VL 精度问题。#6975
修复启用静态内核时的 MoE 前向传播错误。#6964
修复 GLM5 模型的 muls_add 融合问题。#6928
修复多模态模型的 GDN 层检测问题。#6941
修复 300I 非量化模型的权重 nd2nz 错误。#6851
修复 CPU 绑定逻辑。#6889
修复 Eagle 全图形状捕获问题。#6846
已知问题#
目前,对于 DeepSeek v3.2,PCP 和 DCP 尚不能与 FlashComm1 功能协同工作,这可能导致服务错误或其他未知错误。
在采用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中,P 节点在高并发场景(例如,2K/2K tokens 和 512 个并发请求)下进行基准测试时可能出现挂起。
具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个 bug,目前有一个临时解决方案可以避免此问题:显式设置
--compilation-config '{"max_cudagraph_capture_size": N}',其中N = max_concurrency × (1 + num_speculative_tokens)。
v0.15.0rc1 - 2026.02.27#
这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
310P MoE 和 W8A8 支持[实验性]:310P 现已支持 MoE 模型、W8A8 量化和 weightNZ 功能,显著扩展了硬件能力。#6530 #6641 #6454 #6705
Qwen3-VL-MoE EAGLE 支持:为 Qwen3-VL-MoE 模型添加了 EAGLE 推测式解码支持。#6327
Kimi-K2.5 模型支持:添加了对 Kimi-K2.5 模型的支持。请注意,vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题,请应用上游
vllm-project/vllm仓库的更改,特别是来自拉取请求 #33320 和 #34501 的更改。#6755
功能#
自动检测量化格式:现在可以从模型文件自动检测量化格式。#6645
GPT-OSS Attention 支持:添加了 GPT-OSS attention 实现。#5901
SFA 的 DCP 支持:为 SFA 架构添加了解码上下文并行 (DCP) 支持。#6563
Mooncake 分层 PCP 支持:Mooncake 分层连接器现在支持 PCP 功能。#6627
Mooncake 连接器远程 PTP 大小:Mooncake 连接器现在可以获取远程 PTP 大小。#5822
KV 池稀疏注意力:KV 池现在支持稀疏注意力。#6339
使用 AscendC 实现批处理不变性:使用 AscendC 实现了批处理不变性功能。#6590
路由重放:新增路由重放功能。#6696
压缩张量 MoE W4A8 动态权重:新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889
GLM4.7-Flash W8A8 量化:为 GLM4.7-Flash 新增 W8A8 量化支持。#6492
DispatchGmmCombineDecode 增强:DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393
RMSNorm 动态量化融合:新增 rmsnorm 动态量化融合 pass。#6274
工作进程健康检查接口:为工作进程新增
check_health接口。#6681
硬件与算子支持#
性能#
多模态 seq_lens CPU 缓存:使用
seq_lensCPU 缓存以避免频繁的 D2H 拷贝,从而提升多模态性能。#6448DispatchFFNCombine 优化:优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707
DeepSeek V3.2 KVCache 优化:优化了 DeepSeek V3.2 的 KV 缓存使用。#6610
MLA/SFA 权重预取:重构了 MLA/SFA 权重预取,使其与 MoE 权重预取保持一致。#6629
MLP 权重预取:重构了 MLP 权重预取,使其与 MoE 模型的预取机制保持一致。#6442
自适应块大小选择:在 linear_persistent 内核中新增自适应块大小选择功能。#6537
EPLB 内存优化:减少了 EPLB 中用于热度聚合的内存占用。#6729
内存迁移与中断核心绑定:改进了绑定逻辑,增加了内存迁移和中断核心绑定功能。#6785
Triton 稳定性:提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301
依赖项#
Mooncake:升级至 v0.3.8.post1。#6428
弃用与重大变更#
文档#
其他#
PD 全图中的 MTP:修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472
DeepSeekV3.1 精度:修复了 DeepSeekV3.1 的精度问题。#6805
EAGLE 重构:已将 MTP 路由至 EAGLE,但 PCP/DCP+MTP 的情况除外。#6349
推测解码准确性:修复了 vLLM 0.15.0 中的推测接受率问题。#6606
PCP/DCP 准确性:修复了 PCP/DCP 在使用推测解码时的准确性问题。#6491
KV 池 Mooncake 后端:正确初始化了 mooncake 后端的 head_or_tp_rank。#6498
分层连接器重计算调度器:分层连接器现在支持重计算调度器。#5900
内存缓存池:修复了启用内存缓存池时服务启动失败的问题。#6229
AddRMSNormQuant:修复了 AddRMSNormQuant 未生效的问题。#6620
池化代码:修复了池化代码问题并更新了使用指南。#6126
上下文并行:修复并统一了 PD 请求判别逻辑。#5939
npugraph_ex:修复了重复模式问题,并为 allreduce rmsnorm 融合通道添加了额外检查。#6513 #6430
RecomputeScheduler:修复了 RecomputeScheduler 与 vLLM v0.14.1 不兼容的问题。#6286
v0.13.0 - 2026年02月06日#
这是 vLLM Ascend v0.13.0 的最终版本。请按照 官方文档 开始使用。
亮点#
模型支持
DeepSeek-R1 & DeepSeek-V3.2:[实验性]性能优化和异步调度增强。#3631 #3900 #3908 #4191 #4805
Qwen3-Next:[实验性]全面支持 Qwen3-Next 系列模型(包括 80B-A3B-Instruct),支持全图模式、MTP、量化(W8A8)、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。#3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770
LongCat-Flash:[实验性]添加了对 LongCat-Flash 模型的支持。#3833
minimax_m2:[实验性]添加了对 minimax_m2 模型的支持。#5624
Whisper 与交叉注意力:[实验性]添加了对交叉注意力和 Whisper 模型的支持。#5592
池化模型:[实验性]添加了对池化模型的支持,并进行了 PCP 适配,修复了多个与池化相关的 bug。#3122 #4143 #6056 #6057 #6146
PanguUltraMoE:[实验性]添加了对 PanguUltraMoE 模型的支持。#4615
核心功能
上下文并行 (PCP/DCP):[实验性] 全面支持预填充上下文并行 (PCP) 和解码上下文并行 (DCP),集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能,欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672
全图模式 (ACLGraph):[实验性]增强了全图模式,支持 GQA,进行了内存优化,统一了 ACLGraph 与 Torchair 之间的逻辑,并提高了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118
多令牌预测 (MTP):显著改进了 MTP 支持,包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下都能工作,建议使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477
预填充-解码解耦:将 ADXL 引擎设置为解耦预填充的默认后端,提升了性能和稳定性。为 DeepSeek 解码节点添加了对 KV NZ 特性的支持。#3761 #3950 #5008 #3072
KV 池与 Mooncake:增强了 KV 池,支持 Mooncake 连接器用于 PCP/DCP、多输入后缀,并提升了 Layerwise Connector 的性能。#3690 #3752 #3849 #4183 #5303
EPLB(弹性预填充负载均衡):[实验性]EPLB 现已更加稳定,修复了多个错误。混合放置现已可用。#6086
仅全解码模式:在 full_decode_only 模式下添加了对 Qwen3-Next 和 DeepSeekv32 的支持,并修复了相关错误。#3949 #3986 #3763
Model Runner V2:[实验性]添加了对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210
功能#
硬件与算子支持#
性能#
本版本添加了许多自定义算子和 Triton 内核以加速模型性能:
DeepSeek 性能:[实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用,提升了 DeepSeek V3.2 的性能。#4805 #2713
FlashComm:通过 o_shared linear 和通信域修复增强了 FlashComm v2 优化。#3232 #4188 #4458 #5848
MoE 优化:针对 MoE 模型优化了 all2allv 并增强了 all-reduce 跳过逻辑。#3738 #5329
注意力优化:将注意力更新流移出循环,为长序列优化将 BSND 格式转换为 TND 格式,并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390
量化性能:在 Allgather EP 中将量化操作移至 allgather 之前。#3420
Layerwise 连接器:[实验性]提升了 Layerwise Connector 的性能。#5303
前缀缓存:提升了前缀缓存特性的性能。#4022
Rope 嵌入:使用 Triton 内核优化了 rope 嵌入,带来巨大的性能提升。#5918
采样:新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098
多模态:在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204
依赖项#
弃用与重大变更#
CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。
ProfileExecuteDuration 功能 已弃用。
Ascend 调度器 已被移除。#4623
Torchair 已被移除。#4814
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除,建议使用
VLLM_ASCEND_ENABLE_PREFETCH_MLP替代,因为它们通常总是同时启用。#5272VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270
由于我们注意到在某些浮点权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878
additional_config中的 chunked_prefill_for_mla 现已被移除。#5296additional_config中的 dump_config 已重命名为dump_config_path,且类型从dict更改为string。#5296用于嵌入模型的 --task 参数 已弃用。#5257
VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。默认将在解码节点启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。
文档#
新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南
新增了多个模型的教程,包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型
更新了常见问题解答和配置文档
其他#
OOM 修复:VL 模型上的 OOM 错误现已修复。我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136
Qwen3-Next-MTP 精度:修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932
ZMQ 错误修复:修复了 zmq 发送/接收失败的错误。#5503
权重转置:修复了 RL 场景中的权重转置问题。#5567
Eagle3 SP:使 SP 适配 eagle3。#5562
GLM4.6 MTP:GLM4.6 现在支持全图模式下的 MTP。#5460
Flashcomm2 Oshard:Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723
细粒度共享专家重叠:支持细粒度的共享专家重叠。#5962
已知问题#
由于
transformers包的升级,某些模型的量化权重(如qwen2.5vl、gemma3、minimax)可能无法工作。我们将在下一个补丁版本中修复此问题。#6302Qwen3-32B在 128K 输入长度场景下的性能可能不佳,建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。Qwen3-235B、Qwen3-480B在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个补丁版本中改进。在预填充-解码场景下部署 deepseek3.1 时,请确保解码节点的 TP 大小大于 1。
TP=1无法工作。这将在下一个 CANN 版本中修复。
v0.14.0rc1 - 2026年1月26日#
这是 vLLM Ascend v0.14.0 的第一个候选发布版本。请按照 官方文档 开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级,请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。
亮点#
功能#
性能#
CPU 绑定逻辑和性能已得到改进。#5555
合并 Q/K 拆分以简化 AscendApplyRotaryEmb,从而提升性能。#5799
新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在
--additional_config中设置fuse_allreduce_rms=True以启用它。#5034使用 triton 内核优化 rope embedding,以获得巨大的性能提升。#5918
支持无 top_k 约束的高级 apply_top_k_top_p。#6098
在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204
其他#
model runner v2 支持 triton 惩罚算子。#5854
model runner v2 支持 eagle 推测式解码。#5840
通过默认设置
expandable_segments:True修复多模态推理 OOM 问题。#5855VLLM_ASCEND_ENABLE_MLAPO默认设置为True。在 PD 部署场景中,解码节点会自动启用此功能。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。#5952对于使用 mooncake 分层连接器的 PD 部署,SSL 配置可以设置到 kv_extra_config 中。#5875
支持
--max-model-len auto。#6193
依赖项#
torch-npu 已升级至 2.9.0 版本。#6112
弃用与重大变更#
EPLB 配置选项已移至 additional config 中的
eplb_config。旧选项在此版本中已被移除。性能分析器环境变量,例如
VLLM_TORCH_PROFILER_DIR和VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,现已不再适用于 vLLM Ascend。请改用 vLLM 的--profiler-config参数。#5928
已知问题#
如果您有时遇到来自
EngineCore进程的 pickle 错误,请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。
v0.13.0rc2 - 2026年1月24日#
这是 vLLM Ascend v0.13.0 的第二个候选发布版本。在此 rc 版本中,我们修复了大量错误并提升了多款模型的性能。请按照 官方文档 开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。
亮点#
在此版本中,我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误,并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 等模型的性能。
功能#
模型支持#
性能#
此版本中添加了许多自定义算子和 triton 内核,以加速模型性能。例如
RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine等。提升了 Layerwise Connector 的性能 #5303
其他#
基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代引擎,将在未来版本中默认使用。#5210
修复了 zmq 发送/接收可能失败的 bug #5503
支持 Qwen3-Next-MTP 使用全图模式 #5477
修复了强化学习场景中的权重转置问题 #5567
使 SP 适配 eagle3 #5562
上下文并行(PCP&DCP)支持 mlapo #5672
GLM4.6 支持全图模式下的 mtp #5460
Flashcomm2 现已支持 oshard 通用化特性 #4723
支持为 Eagle 草稿模型设置 tp=1 #5804
Flashcomm1 特性现已支持 qwen3-vl #5848
支持细粒度共享专家重叠 #5962
依赖项#
CANN 已升级至 8.5.0
torch-npu 已升级到 2.8.0.post1。请注意,该版本默认不会安装,请从 pypi 镜像站 手动安装。
triton-ascend 已升级至 3.2.0
弃用与重大变更#
v0.13.0rc1 - 2025.12.27#
这是 vLLM Ascend v0.13.0 的第一个候选发布版本,在此版本中完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend,请按照 官方文档 开始使用。
亮点#
功能#
性能#
一些常规性能改进:
添加 l2norm triton 算子 #4595
为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077
在模型执行时添加异步指数计算。#4501
移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390
为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。
其它#
弃用与重大变更#
移除了
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常同时启用。#5272现已废弃
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。#5270由于在某些 float 权重场景下性能不佳,现已针对该场景禁用了
VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878现已废弃
additional_config中的chunked_prefill_for_mla。#5296additional_config中的dump_config已重命名为dump_config_path,且类型从dict更改为string。#5296
依赖项#
已知问题#
v0.11.0 - 2025.12.16#
我们很高兴地宣布 vLLM Ascend v0.11.0 正式发布。这是 v0.11.0 的官方版本。请按照 官方文档 开始使用。如有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。
亮点#
其它#
弃用公告#
LLMdatadist connector 已被弃用,将在 v0.12.0rc1 中移除。
Torchair graph 已被弃用,将在 v0.12.0rc1 中移除。
Ascend scheduler 已被弃用,将在 v0.12.0rc1 中移除。
升级说明#
torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。
CANN 已升级至 8.3.rc2。
已知问题#
在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。并且如果输入过长,会导致内存溢出(OOM)。我们将在下一个版本中改进此问题。
在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认无法工作。临时解决方案是将
--gpu-memory-utilization设置为合适的值,例如 0.8。如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。
v0.12.0rc1 - 2025.12.13#
这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。
亮点#
DeepSeek 3.2 现已稳定且性能得到提升。在此版本中,您无需安装任何其他软件包。请按照 官方教程 开始使用。
现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。
核心#
[实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认未启用,但我们建议在大多数情况下通过
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中持续改进并默认启用它。新增了大量 triton 内核。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认未安装且未启用,但我们建议在大多数情况下启用它。您可以从 软件包地址 手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。
新增了大量昇腾算子以提升性能。这意味着从本版本开始,vLLM Ascend 仅在使用自定义算子构建的情况下才能工作。因此,我们移除了环境变量
COMPILE_CUSTOM_KERNELS,您现在无法再将其设置为 0。推测解码方法
MTP现已更加稳定。它可以在大多数情况下启用,且解码令牌数量可以设置为 1、2、3。现已支持推测解码方法
suffix。感谢招商银行的贡献。llm-compressor 量化工具的 W8A8 现已可用。您现在可以直接部署使用该工具生成的 W8A8 量化模型。
W4A4 量化现已可用。
现已支持池化(Pooling)模型,例如 bge、reranker 等。
官方文档已得到改进。我们重构了教程以使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。
其它#
[实验性功能] 现已支持 Mooncake 分层连接器。
[实验性功能] 新增了 KV 缓存池 功能
[实验性功能] 引入了一种新的图模式
xlite。它在某些模型上表现良好。请按照 官方教程 开始使用。已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。
已移除 Ascend 调度器。
--additional-config {"ascend_scheduler": {"enabled": true}}不再生效。已移除 Torchair 图模式。
--additional-config {"torchair_graph_config": {"enabled": true}}不再生效。请改用 aclgraph。已移除
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION环境变量。该功能已足够稳定,我们现在默认启用它。推测解码方法
Ngram现已回归。新增了 msprobe 工具以帮助用户检查模型精度。请按照 官方文档 开始使用。
新增了 msserviceprofiler 工具以帮助用户分析模型性能。请按照 官方文档 开始使用。
升级说明#
已移除 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。
CANN 已升级至 8.3.RC2,PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装它们。
已停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。
已知问题#
DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下个版本中修复此问题。#4990
DeepSeek 3.2 无法与聊天模板配合使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。
在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下个版本中修复此问题。#4996
我们注意到 bf16/fp16 模型性能不佳,这主要是因为默认启用了
VLLM_ASCEND_ENABLE_NZ。请设置VLLM_ASCEND_ENABLE_NZ=0来禁用它。我们将在下个版本中添加自动检测机制。推测解码方法
suffix无法工作。我们将在下个版本中修复此问题。您可以通过拣选(pick)此提交来修复该问题:#5010
v0.11.0rc3 - 2025.12.03#
这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。
亮点#
其它#
v0.11.0rc2 - 2025.11.21#
这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。
亮点#
核心#
其它#
修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。#4106 #4282
修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。#3711
修复了多模态(vl)模型无法在 x86 机器上运行的问题。#4285
预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。#4242
增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。#4315
增加了一项检查,以确保 FLASHCOMM 功能不与视觉语言(vl)模型一同使用。该功能将在 2025 年第四季度得到支持。#4222
容器中已安装音频所需的库。#4324
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。
亮点#
前缀缓存(PrefixCache)和分块预填充(Chunked Prefill)默认已启用。#3967
现已支持 W4A4 量化。#3427。官方教程请见 single_npu_qwen3_w4a4。
核心#
提升了 Qwen3 和 DeepSeek V3 系列模型的性能。
现已支持 Mooncake 分层连接器 #2602。教程请见 pd_disaggregation_mooncake_multi_node。
现已支持多 token 预测(MTP > 1)。#2708
[实验性] 现已支持图模式
FULL_DECODE_ONLY!FULL模式将在未来几周内推出。#2128现已支持池化模型(如 bge-m3)。#3171
其它#
已知问题#
在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。
Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。
在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器的一个 bug,我们正在修复中。
Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将
--gpu-memory-utilization设置为一个合适的值,例如 0.8。当启用专家并行运行 Qwen3-Next 时,请将
HCCL_BUFFSIZE环境变量设置为合适的值,例如 1024。在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将
cudagraph_capture_sizes设置为合适的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
W8A8 量化的性能得到提升。#2275
修复了应用投机解码和 aclgraph 时出现的资源限制错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充阶段滑动窗口注意力的 bug。#2758
新增了 Qwen3 预填充-解码解耦的官方文档。#2751
环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP现已恢复生效。#2740为 DeepSeek 的 oproj 新增了一项优化。设置
oproj_tensor_parallel_size即可启用此功能。#2167修复了设置
graph_batch_sizes时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1和VLLM_ASCEND_ENABLE_FLASHCOMM=1即可启用。#2779通过预取功能提升了 Qwen3 密集模型的性能。设置
VLLM_ASCEND_ENABLE_PREFETCH_MLP=1即可启用。#2816通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
新增 warm_up_atb 步骤以加速推理。#2823
修复了 MoE 模型在 aclgraph 模式下的流错误。#2827
已知问题#
当在预填充和解码阶段使用不同的 TP 大小运行预填充-解码解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将
max_model_len和gpu_memory_utilization设置为合适的值,以避免内存溢出错误。我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941
在使用 Ascend 调度器时,请勿同时启用分块预填充和前缀缓存,否则性能和精度将不理想或不正确。#2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
Bug 修复:
通过大量 PR 提升了性能:
通过一批重构 PR 增强了代码架构:
参数变更:
在
additional_config中增加了lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309移除了若干不再使用的环境变量:
HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT以及LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT现已更名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450增加了环境变量
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120从环境变量中移除了
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中增加了enable_prefetch,用于控制是否启用权重预取。#2465在
additional_config.torchair_graph_config中增加了mode参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461additional_config中的enable_shared_expert_dp现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。
在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南。
请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。
亮点#
已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程 和 大规模专家并行。
Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程。
V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。
支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。
投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。
现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南。
V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程。
增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。
注意#
以下说明特别供从上一个正式版本(v0.7.3)升级时参考:
从此版本起不再支持 V0 引擎。请务必设置
VLLM_USE_V1=1以在 vLLM Ascend 中使用 V1 引擎。此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。
核心#
为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。
结构化输出(Structured output)功能现在可以在 V1 引擎上运行。
增加了一批自定义算子以提升性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。
此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。
如果在 eager 模式下使用 w4a8 量化,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免显存溢出(OOM)。使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654
我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。
核心#
MTP 现在支持 V1 调度器。#2371
增加了 LMhead 张量并行(TP)通信组。#1956
修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478
修复了由过时的
apply_grammar_bitmask方法导致的grammar_bitmask索引越界(IndexError)错误。#2314移除了
chunked_prefill_for_mla参数。#2177修复了 bug 并重构了缓存掩码生成逻辑。#2326
修复了关于 Ascend 调度器的配置检查逻辑。#2327
在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368
修复了 Ray 分布式后端失效的问题。#2306
修复了 Ascend 调度器中错误的请求块长度。#2394
修复了 RoPE 中的头文件包含问题。#2398
修复了 MTP 的配置 bug。#2412
修正了错误信息并适配了
attn_metadata的重构。#2402修复了因配置不匹配及
.kv_cache_bytes文件缺失导致的 torchair 运行错误。#2312将
with_prefill阶段的 allreduce 从 CPU 迁移至 NPU。#2230
文档#
增加了 DeepSeek 大规模专家并行(EP)的文档。#2339
已知问题#
修复了 A2 (910B1) 上开启
"full_cuda_graph": True时test_aclgraph.py失败的问题。#2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级至
2.7.1.dev20250724。#1562。CANN 已升级至8.2.RC1。#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582
vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162
V1 引擎现已支持流水线并行(Pipeline Parallelism)。#1800
前缀缓存(Prefix cache)功能现在可与 Ascend 调度器协同工作。#1446
Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508
MTP 现在支持 torchair 图模式。#2145
其他#
Bug 修复:
通过大量 PR 提升了性能:
将 sin/cos 进行缓存,而非在每一层都重新计算。#1890
改进了共享专家(shared expert)的多流并行性。#1891
实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1可启用此特性。#1926通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195
在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806
使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555
提升了 LoRA 的性能。#1884
通过一批重构 PR 增强了代码架构:
参数变更:
additional_config中的expert_tensor_parallel_size现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681增加了环境变量
VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。增加了环境变量
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用MatmulAllReduce融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。增加了环境变量
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。
在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。
序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209
现已增加中文在线文档。#1870
已知问题#
目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229
在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232
在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246
MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254
当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录器(metrics logger)。#2254
v0.9.1rc2 - 2025.08.04#
这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。
亮点#
模型改进#
DeepSeek DBO 支持与改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 在 rmsnorm/repo/mlp 算子方面的性能改进:#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 在分块预填充/图模式/多流方面的改进与错误修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
通过改进 mrope/padding 机制提升 Qwen2.5 VL 性能:#1261 #1705 #1929 #2007
图模式改进#
在 #1269 中修复了 DeepSeek 与 mc2 配合使用的问题。
在 #1332 中修复了 DeepSeek V3/R1 模型在使用 TorchAir 图模式进行长序列预测时的精度问题。
在 #1570 中修复了
torchair_graph_batch_sizes错误。在 #1404 中为 TorchAir 图模式启用了 tp <= 4 的限制。
修复 RoPE 精度错误 #1887。
在 FusedMoE 中支持共享专家的多流处理 #997。
在 TorchAir 图模式的解码过程中启用
kvcache_nz#1098。修复 TorchAir 下的分块预填充场景,解决 #1378 中的
UnboundLocalError: local variable 'decode_hs_or_q_c'问题。在 #1561 中提升了 w8a8 动态量化下共享专家的多流性能。
修复设置多流时的 MoE 错误 #1882。
在 EP 场景下将图批次大小向上取整至 TP 大小的倍数 #1610
修复启用 DP 时的 TorchAir 错误 #1727
为
torchair_graph_config添加额外检查 #1675修复 TorchAir + 分块预填充场景下的 RoPE 错误 #1693
修复
chunked_prefill为 true 时的torchair_graph错误 #1748改进预填充优化以支持 TorchAir 图模式 #2090
修复 DP 场景下的 rank 设置问题 #1247
重置所有未使用的位置以防止越界,从而解决 GatherV3 错误 #1397
移除 ModelRunner 中重复的多模态代码 #1393
修复块表形状以解决精度问题 #1297
在受限场景下实现初步的全图模式 #1503
为提升性能,在全图模式中恢复分页注意力内核 #1677
修复极端
--gpu-memory-utilization设置下的 DeepSeek OOM 问题 #1829在启用 TorchAir 时关闭 aclgraph #2154
算子改进#
核心#
将 CANN 升级至 8.2.rc1 #2036
将 torch-npu 升级至 2.5.1.post1 #2135
将 Python 升级至 3.11 #2136
禁用了
mindie_turbo中的量化 #1749修复了 V0 投机解码 #1323
仅在使用 V0 投机解码时直接启用
ACL_OP_INIT_MODE=1#1271重构了
forward_context和model_runner_v1#1422修复了采样参数 #1423
增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ #1409
通过处理
PrefillCacheHit状态修复了前缀缓存精度错误 #1492修复了权重加载错误并增加了新的端到端测试用例 #1651
优化了 DeepSeek 中与 RoPE 相关的索引选择次数 #1614
增加了 mc2 掩码 #1642
为预填充增加了分块 mc2 #1703
修复了 mc2 算子的
GroupCoordinator错误 #1711修复了无法识别实际量化类型的问题 #1721
修复了 DeepSeek 在
tp_size == 1时的错误 #1755增加了预填充节点对无延迟块的支持 #1691
针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO #1547
适配了
dispatchV2接口 #1822修复了解耦预填充在长输出时的挂起问题 #1807
修复了 V0 引擎下的
flashcomm_v1问题 #1859修复了某些情况下
ep_group不等于word_size的问题 #1862修复了 wheel 包 glibc 版本不兼容的问题 #1808
修复了 mc2 进程组以解决
self.cpu_group为 None 的问题 #1831将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查 #1904
为 MoE 应用了
npu_moe_gating_top_k_softmax以提升性能 #1902修复了 V0 引擎下
path_decorator的 bug #1919避免了在解耦预填充场景下执行 CPU all_reduce #1644
为解码阶段的 MoE 增加了 super kernel #1916
[预填充性能] 并行策略优化(显存换速度的权衡) #1802
移除了
shared_experts.down_proj中不必要的reduce_results访问 #2016通过向量化优化了 greedy reject 采样器 #2002
实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode) #1936
修复了 DeepSeek 模型在启用 tp > 1 和
multistream_moe时,共享专家与路由专家之间的形状冲突问题 #2075增加了 CPU 绑定支持 #2031
在 #2129 中增加了
with_prefillCPU allreduce 以处理 D 节点的重计算。在 #2038 中增加了 D2H 和
initRoutingQuantV2以提升预填充性能。
文档#
已知问题#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。
亮点#
核心#
其他#
官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。
修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为0。#1335新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478
Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483
已知问题#
流水线并行(Pipeline parallel)无法与 Ray 和图模式共同工作:vllm-project/vllm-ascend#1751 vllm-project/vllm-ascend#1754
新贡献者#
@xleoken 在 vllm-project/vllm-ascend#1357 中做出了首次贡献
@lyj-jjj 在 vllm-project/vllm-ascend#1335 中做出了首次贡献
@sharonyunyun 在 vllm-project/vllm-ascend#1194 中做出了首次贡献
@Pr0Wh1teGivee 在 vllm-project/vllm-ascend#1308 中做出了首次贡献
@leo-pony 在 vllm-project/vllm-ascend#1374 中做出了首次贡献
@zeshengzong 在 vllm-project/vllm-ascend#1452 中做出了首次贡献
@GDzhu01 在 vllm-project/vllm-ascend#1477 中做出了首次贡献
@Agonixiaoxiao 在 vllm-project/vllm-ascend#1531 中做出了首次贡献
@zhanghw0354 在 vllm-project/vllm-ascend#1476 中做出了首次贡献
@farawayboat 在 vllm-project/vllm-ascend#1591 中做出了首次贡献
@ZhengWG 在 vllm-project/vllm-ascend#1196 中做出了首次贡献
@wm901115nwpu 在 vllm-project/vllm-ascend#1654 中做出了首次贡献
完整更新日志: vllm-project/vllm-ascend
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
实验性功能#
本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333
支持 EAGLE-3 进行推测式解码。#1032
经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。
核心#
其他改进#
为 MLA 初步支持分块预填充(Chunked Prefill)。#1172
新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持在 AscendScheduler 中使用推测式解码功能。#943
提升了
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884
修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186
重构 AscendFusedMoE #1229
新增初始用户故事页面(包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224
新增单元测试框架 #1201
已知问题#
完整更新日志#
新贡献者#
@farawayboat 在 vllm-project/vllm-ascend#1333 中做出了首次贡献
@yzim 在 vllm-project/vllm-ascend#1159 中做出了首次贡献
@chenwaner 在 vllm-project/vllm-ascend#1098 中做出了首次贡献
@wangyanhui-cmss 在 vllm-project/vllm-ascend#1184 中做出了首次贡献
@songshanhu07 在 vllm-project/vllm-ascend#1186 中做出了首次贡献
@yuancaoyaoHW 在 vllm-project/vllm-ascend#1032 中做出了首次贡献
完整更新日志: vllm-project/vllm-ascend
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理此问题,并将在下一版本中修复。
多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包含以下更改:
亮点#
漏洞修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。
亮点#
本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。
将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708
核心#
现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1。#715
修复了在 profile_run 期间
CustomDeepseekV2MoE.forward过早返回的问题。#682适配了由 modelslim 生成的新量化模型。#719
初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git目录,以修复在/workspace下启动 vLLM 时的问题。#726优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728
修复了
setup.py中PYTHON_INCLUDE_PATH的拼写错误。#762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策。
亮点#
核心#
为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543
支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南。#432
推测解码(Speculative Decoding)功能现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500
结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555
其他#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出
!!!的问题。#406
模型#
通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250308.3 以提升
_exponential的精度。新增对池化模型的初步支持。基于 BERT 的模型,例如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。#229
模型#
其他#
为 DeepSeek V3/R1 提供多令牌预测(MTP)支持。#236
【文档】新增了更多模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档。
在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决:vllm-project/vllm#13807
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。
vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能与改进。
请遵循官方文档开始您的旅程。请注意,这是一个候选发布版本,可能存在一些错误或问题。我们感谢您的反馈和建议,请通过此问题提交。
亮点#
在 vLLM 上提供对 Ascend NPU 的初步支持。#3
同时支持 Qwen、Llama 系列及其他流行模型,您可以在 supported_models 中查看更多详情。
核心#
其他#
已知问题#
本版本依赖于一个尚未正式发布的 torch_npu 版本,该版本已预装在官方容器镜像中。若您在非容器环境下运行,请手动安装。
运行 vllm-ascend 时可能会出现类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。运行 vllm-ascend 时可能会出现类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,其本应显示为# NPU blocks:。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。