版本说明

版本说明#

v0.20.2rc1 - 2026.06.03#

We're excited to announce the release of v0.20.2rc1 for vLLM Ascend. This is the first release candidate for the v0.20.2 release line. Please follow the official doc to get started.

亮点#

DeepSeek V4 Support: Added end-to-end support for DeepSeek V4, including the model architecture, DSA attention backend, KV cache management, distributed inference, tool-call parser, MTP support, KV Pool adaptation, and custom operator enablement. #9270 #9385 #9228
A5 and XLite Quantization Expansion: Added MXFP4 flatquant with row parallelism for Ascend A5 and expanded XLite support to GLM-4.7 W8A8 quantization. #9391 #9415

功能#

Added Flash Attention 3 support for training-inference consistency. The backend is ready in vLLM Ascend and will become directly usable once the FA3 package is publicly available. #9060
Added DeepSeek PCP/DCP adaptation to improve support for disaggregated deployments. #9058
Added a dedicated additional_config.enable_dsa_cp switch to decouple DSA-CP from FC1. DSA-CP now requires both FC1 and DSA-CP to be explicitly enabled, allowing FC1 to stay enabled while DSA-CP is disabled when needed. #9878
Added merged graph support for DFlash workloads. #9074
Added LoRA support for Qwen3.5 dense models. #9023
Added KV pool adaptation for DeepSeek V4 and separated MTP-layer KV cache sharding for DeepSeek V4 speculative decoding. #9385 #9367

硬件与算子支持#

Added DeepSeek V4 custom operators required for the new model path, registered the operators for Ascend 910B, and switched the DeepSeek V4 hc_pre path to a fused operator. #9228 #9339 #9396
Enabled MXFP4 flatquant and row parallel support on Ascend A5. #9391
Enabled MC2 dispatch and combine support for MXFP4/MXFP8 quantization on Ascend A5. #9365 #9328
Improved 310P support by optimizing fused operators for Qwen3.5 Dense ACLGraph and simplifying the 310P RMSNormGated path. #9104 #9489

性能#

Added DeepSeek V4 DSA multistream overlap optimizations across compressor, indexer-select, CV parallel, and pure-prefill compute-communication overlap paths. #9450 #9441 #9433 #9504
Reused DSA topk_indices across decode steps with IndexCache to reduce repeated DeepSeek V4 index computation. #9390
Fixed the missing enablement for cv_indexer_qkv_prepare multistream parallelism in the new overlap path. #9530
Reduced host-device synchronization overhead by removing the sync point in PIECEWISE mode. #9025
Optimized shared expert overlap timing in FusedMoE. #9413
[Experimental] Added reduce sampling with enable_reduce_sample to lower Tensor Parallel communication overhead in distributed greedy, top-k/top-p, and rejection sampling paths. #8308

Stability and Bug Fixes#

Fixed DeepSeek V4 MTP, serial inference, FlashComm, A2 tensor-output all-reduce, and P/D disaggregation KV cache edge cases. #9456 #9487 #9488 #9389 #9500
Fixed DeepSeek V4 hc_pre behavior and added a 4-card E2E regression test. #9452

依赖项#

Upgraded the matched upstream vLLM baseline to v0.20.2. #9270
Upgraded CANN to 9.0.0 and triton-ascend to 3.2.1. #9085
Upgraded PyTorch and torch-npu to 2.10.0. #9128

Breaking Changes and Migration Notes#

Migrated a set of runtime options from environment variables to AscendConfig, including the FC1/FlashComm1 switch from VLLM_ASCEND_ENABLE_FLASHCOMM1 to additional_config.enable_flashcomm1. Please review configuration code and deployment manifests when upgrading. #9064
Disabled SwiGLU clamp by default, which may slightly change behavior for workloads that previously relied on the old default. #9438

文档#

Refreshed deployment and feature documentation for the current main branch release line. #9309 #8968
Added documentation for the enable_dsa_cp additional configuration option for DeepSeek V3.2 and GLM5. #9910

已知问题#

GLM5/GLM5.1 W4A8 deployments have known issues in some advanced configurations. #9395
Qwen3.6-35B-A3B may shut down when MTP/speculative decoding is enabled, with numAcceptedTokens[0]=4 exceeds varlen segment length=3 reported during shape/dtype processing. #9956
GLM-5.1 can hang on the P node in 200K long-sequence 1P1D agent workloads after long-running service, with MoeDistributeDispatchV2/aclnnMoeDistributeDispatchV4 reporting an AICore timeout. #9958
GLM5 W4A8 deployments can see a significantly lower speculative decoding acceptance rate when MTP3 is used together with FlashComm. #9803
MiniMax-M2.7 W8A8/QuaRot can show lower-than-expected GPQA accuracy in long-sequence deployments when PCP/DCP is combined with Eagle3 speculative decoding. #9959
KV Pool feature for DeepSeek V4 now faces several known issues affecting user-friendliness and performance, including special startup parameter requirements, special key storing behaviors, etc. For details, please refer to issue #9975.

v0.18.0 - 2026.04.30#

我们很高兴地宣布 vLLM Ascend v0.18.0 正式发布。这是 v0.18.0 的正式版本。请按照官方文档开始使用。

亮点#

模型支持

Kimi-K2.x 模型支持：[实验性]添加了对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755
Minimax-m2.x 模型支持：[实验性]添加了对 Minimax-m2.x 模型的支持，支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714
GLM5 支持：[实验性]无需任何代码修改即可支持 GLM5 模型！
Qwen3.x 支持：[实验性]无需任何代码修改即可支持 Qwen3.x 模型！
DeepseekOCR 支持：[实验性]添加了对 DeepseekOCR 模型的支持，并优化了 RelPosAttention 和 CustomQwen2Decoder。@Wangbei25 #7737

核心功能

EPLB（专家并行负载均衡）：EPLB 经过大量 bug 修复后更加稳定，性能也得到提升。EPLB 现在在大多数情况下都能正常工作，推荐使用。#6528 #7344 #7890 #6477
ACLGraph 增强：ACLGraph 现在支持为多步草稿捕获单个合并图，大大减少了多步推测解码场景中的 host bound！#5553 #5940
KV 池化：增强的 KV 池与 Mooncake 连接器现在支持稀疏注意力，LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案被添加，支持 HIXL 互联的 FabricMem 模式，支持 yuanrong 作为 AscendStoreConnector 的后端，并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前的版本相比，KV 池化在 TTFT 上实现了巨大的性能优化！#6339 #6882 #6806 #6869 #7032
PD 分离：Mooncake layerwise 连接器现在支持混合注意力管理器和 PCP 功能。#7022 #6627
NPU Graph EX (npugraph_ex) 默认启用：npugraph_ex 功能现已默认启用，通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
RL（强化学习）：[实验性]通过 AscendC 和 triton op 实现了批量不变性功能，增强了 RL，并添加了路由重放功能。#6590 #6696
CPU 绑定默认启用：启用了仅 ARM CPU 绑定，采用全局切片 A3 策略，提高了 hostbound 场景中的推理吞吐量。#6686

功能#

混合模型现已支持前缀缓存。#7103
Flash Comm V1 现已支持使用 MLA 的 VL 模型，移除了之前对多模态服务的一个限制。#7390
VL MoE 模型现在支持 SP，并且移除了 sp_threshold，转而采用 vLLM 的 sp_min_token_num。#7044
[实验性]流水线并行现在支持异步调度，提高了 PP 部署的吞吐量。#7136
Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038
重构 eagle3/mtp，eagle3 和 mtp 现在使用相同的 proposer。#6349 #7033

硬件与算子支持#

首次支持 310P，并进行了巨大的性能优化！：
- 支持 W8A8 量化。#6641 #6454
- 支持 weightNZ 特性，支持量化或非量化权重。#6705
- 支持 W8A8SC 量化方法。#7075
- 修复图模式下后采样不工作问题。#8077
- 为 300I DUO 新增 addrmsnorm 支持。#6704
- 修复了 310P 上 ngram 图重放的精度错误。#7134
自定义算子：添加了多个自定义算子，包括：
- 为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661
- 新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725
- 为 MoE 模型新增了 GMM 自定义算子。#7010
- 优化了 split_qkv_rmsnorm_rope 算子。#6827
- Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
- 新增 AscendC 融合算子 transpose_kv_cache_by_block，以加速 GQA 传输。#6366
- 优化了 DispatchFFNCombine 内核性能，并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707
- 重构并优化了 CausalConv1d。#7495

性能#

初始化性能：优化了 Triton 算子的重编译，以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645
Qwen3.x 性能：[实验性]通过支持全图模式、PD 分离、mamba prefill 前缀缓存和 flashcomm1、预构建 chunk 元数据以减少主机-设备同步开销，以及多项算子性能优化（包括 chunk_gated_delta_rule、chunk_fwd_kernel_o、solve_tril、recompute_w_u_fwd_kernel、split_qkv_rmsnorm_mrope 等），优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368
Kimi-K2.x 性能：[实验性]通过支持 eagle3 和 flashcomm1，并减少 d2h 开销，优化了 Kimi-K2.x 的性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521
Qwen3-VL 性能：Qwen3-VL 通过 Flash Comm V1 和 qkv_rmsnorm_mrope 支持获得了更强的多模态算子能力，并通过 aclnn BatchMatMulV2 使卷积计算速度提升 2.7 倍，支持 EAGLE 推测解码。#7893 #7852 #7017 #6327
Qwen3-Omni 性能：现已提供 Qwen3-Omni 量化适配和优化。#6828
DeepSeek-V3.2/GLM5 性能：性能优化，支持 W8A8C8 量化，并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610
GLM4.7-Flash 性能：为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492

依赖项#

vLLM：已升级至 0.18.0 并停止支持 0.17.0。
CANN：已升级至 8.5.1。附注： 使用 FabricMem 模式的 AscendStoreConnector、310P 设备支持以及 Qwen3-Omni 模型需要将 CANN 版本升级至 9.0.0，如需这些功能，请手动升级。
torch-npu：由于已知问题，已升级至 2.9.0.post1+git4c901a4。该版本无法默认安装，请手动升级。安装包可通过以下链接获取：https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。附注： 如果 CANN 已升级至 9.0.0 版本，请同步升级 torch-npu 至 2.9.0.post2。
triton-ascend：由于已知问题，已升级至 3.2.0.dev20260322。该版本无法默认安装，请手动升级。安装包可通过以下链接获取：https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/triton_ascend-3.2.0.dev20260322-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_27_${ARCH}.manylinux_2_28_${ARCH}.whl。附注： 如果 CANN 已升级至 9.0.0 版本，请同步升级 triton-ascend 至 3.2.1。
Transformers：已升级至 >= 4.57.4。
Mooncake：已升级至 3.9.0。

${PYTHON_TAG} 是 Python 版本标签，${ARCH} 是 CPU 架构。

例如：python3.11 和 aarch64，${PYTHON_TAG}=cp311，${ARCH}=aarch64。

弃用与重大变更#

清理并弃用了 ProfileExecuteDuration 功能。#6461
移除了自定义 rotary_embedding 算子。#6523
清理了未使用的环境变量 USE_OPTIMIZED_MODEL。#6618
配置选项 enable_flash_comm_v1 已重命名回 enable_sp。#6883

文档#

新增了 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169
在常见问题解答中添加了抢占指导。#8136
更新了 GLM5 的部署和支持文档，包括参数描述、最佳实践和常见问题解答。#7963 #7909
更新了 Qwen3.5 用户指南。#7934
更新了 DeepSeek-V3.2 的文档配置。#7970
清理了文档的措辞和语法。#8073
更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档，以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300
新增了 CPU 绑定的用户/开发者指南。#7045
新增了 Memcache 使用指南。#6476
新增了后缀推测解码的基准测试教程。#6323
新增了 npugraph_ex 介绍文档。#6306

其他#

为捕获模式添加了异步通信检查。#8149
修复了池化场景之间的 KV Pool 冲突，并修复了 vLLM v0.18.0 上缺失的 KV 缓存放置问题。#8101 #7874
通过修正注意力状态处理，修复了短提示转发问题。#8088
为均匀令牌分发恢复了 global_bs=0 和 mc2_mask，并支持跨节点 RoCE 分层 MC2 通信。#8040
修复了 Qwen3-VL 的权重映射器错误。#7868
通过将反向映射改为前向映射，修复了 AscendModelSlimConfig 中的量化配置键映射。#7716
修复了在 PD 部署中运行 MTP 时，全图对所有 D-Nodes 的支持问题。#5472
分层连接器现在支持重计算调度器。#5900
修复了池化代码问题并更新了使用指南。#6126
NPUWorker Profiler 现已支持 profile_prefix，以提供更优的性能分析体验。#6968

已知问题#

目前，在多 DP 和大令牌数场景（kv_producer 或 kv_both）下，不推荐使用 VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌，这些令牌将被路由到某些专家，导致某些 rank 接收令牌过载，从而引发精度和性能问题。#8320
目前，EPLB 不支持 minimax_m2 模型和 W4A8 量化。#8341
当预填充请求的调度令牌数小于 1 + num_speculative_tokens 时，PCP 和 eagle3 叠加可能会产生错误，这将导致该预填充请求被当作解码请求处理，从而引发错误。#8402
不支持 NPU 软分区 + CUDAGraphMode.PIECEWISE。#8585
Qwen3.x 在 PD 解耦场景下存在精度问题。#8421
当前在 x86 架构上存在一个已知问题，该问题已在 CANN 9.0.0 中解决。若要在 x86 上部署 vllm-ascend，请手动升级 CANN 版本。#7993
P/D 代理在重算重试后可能泄漏资源并掩盖 metaserver 错误。#8852
通过 PD 架构分别部署 GLM5 和 Deepseek V3.2 时，存在概率性输出为空或乱码的问题。#8853
对于 PD 分离下 D 节点配置为 TP16 DP2 并行的 GLM 5/5.1，GPQA 精度未达到标准。#8844

v0.19.1rc1 - 2026.04.30#

这是基于 vLLM v0.19.1 的 vLLM Ascend v0.19.1 首个候选发布版本。此版本包含显著的性能优化、新模型支持、硬件扩展以及重要的错误修复。

请按照官方文档开始使用。

亮点#

DFlash Attention 后端：新增 DFlash attention 后端，支持 FULL_DECODE_ONLY 模式以提升推理性能。(#8118, #8516, #8627)
零气泡异步调度：为异步调度和推测解码实现了零气泡优化，显著降低了调度开销。(#7640)
A2/A3 注意力算子升级：将 npu_fusion_attention 替换为 _npu_flash_attention_unpad 算子，以在 A2 和 A3 硬件上获得更佳性能。(#8671)
Eagle3 + MiniMax-M2.5 支持：将 Eagle3 推测解码应用于 MiniMax-M2.5 模型，实现更快的推理。(#7619)
GQA 的 C8 INT8 KV 缓存：为 GQA 注意力模型添加了 C8（INT8 KV 缓存）支持，包括支持 PD 解耦的 DeepSeek-V3.1。(#7474, #7222)
Bailing 模型支持：全面支持 Bailing MoE 模型，包括线性适配和 ModelSlim 量化。(#8657, #8709)

功能#

Qwen3-VL 的 Flash Comm V1：为 Qwen3-VL 多模态模型支持 Flash Comm V1。(#7897)
Eagle + PCP + 全图模式：支持 Eagle 与 PCP 及全图模式的组合。(#7924)
PCP 下的多模态推理：启用预填充上下文并行功能时支持多模态推理。(#8038)
PP 的动态分块：为分块流水线并行支持动态分块。(#7896)
基于汉明距离的稀疏注意力：新增基于汉明距离的稀疏注意力推理框架和算子。(#8564, #8346)
优化的因果 Conv1d 算子：新增优化的因果 conv1d 算子。(#8215)
循环 AscendC 算子：为特定模型架构新增循环 AscendC 算子。(#8055)
GLM4.7 C8 支持：支持 GLM4.7 的 C8（INT8 KV 缓存）场景。(#8174)
Minitron-8B-Base 支持：验证并支持 nvidia/Minitron-8B-Base 模型。(#8157)
Bailing 模型支持：全面支持 Bailing MoE 模型，包含线性适配和 ModelSlim 量化配置。(#8657, #8709)
Qwen3.5 MoE Flash Comm：为 Qwen3.5 MoE 模型支持 Flash Comm。(#7486)
MRv2 的初始 MoE 支持：为 Model Runner V2 添加初始 MoE 模型支持。(#7922)
Xlite 后端扩展：
- XLite GLM-4.7 支持。(#7935)
- 在 xlite 后端支持 Qwen3VLMoeForConditionalGeneration。(#8046)
EPLB 增强：
- Swift 均衡器策略支持混合放置。(#8035)
- EPLB 适配多模态模型。(#7743)
model_runner_v2 的 Eagle 改进：
- 修复了图模式下 Eagle 的接受率问题。(#8365)
- 修复了 Eagle 的精度问题 (#8230, #8033)
- 使 Eagle 适配 model_runner_v2 (#7885)
MTP 合并图：支持 MTP（多令牌预测）的合并图 (#6860)
统一 MoE 专家放置：支持共享专家和路由专家的统一放置 (#7188)
Dispatch V2 层级通信：支持 dispatch_v2/combine_v2 层级通信以提升 MoE 性能 (#7583)
Dispatch FFN Combine 的 Xmask：为 dispatch_ffn_combine 算子添加 xmask 功能（w8a8 分支）(#8560)
融合 W4A8 内核：将 W4A8 dispatch + FFN + combine 融合为单个内核 (#7779)
KV 缓存内存核算：在 KV 缓存规划中考虑图捕获内存 (#8289)
Qwen3-Next 混合注意力：支持 piecewise 和 full_decode_only 模式下的 Qwen3-next 混合注意力 (#7422)
GDN 优化：优化 GDN 非推测预填充回退元数据 (#7756)
Qwen3-VL 支持：为 Qwen3-VL 支持 kv_rmsnorm_mrope (#7762)
Mamba 前缀缓存：Layerwise connector 支持 Mamba 预填充前缀缓存 (#7814)
Yuanrong KV 池后端：为 KV 池添加 Yuanrong 后端支持 (#6869)

硬件与算子支持#

310P 增强功能：
- Qwen3.5 模型适配与主线同步 (#8009)
- 支持 W8A8 动态线性方法 (#7725)
- 在 Qwen3.5 的融合 MoE 中支持共享专家路径 (#7674)
- 添加 npu_causal_conv1d_310 AscendC 自定义算子 (#7798)
- 添加 recurrent_gated_delta_rule_310 AscendC 自定义算子 (#7926)

性能#

A2/A3 注意力：使用 _npu_flash_attention_unpad 算子替换 npu_fusion_attention 以提升性能 (#8671)
MLA PCP 预填充优化：通过避免投影不必要的尾部 KV 令牌来优化 MLA PCP 预填充注意力 (#8787)
异步调度优化：
- 异步调度下发气泡优化 (#8766)
- 零气泡异步调度与推测解码 (#7640)
KV 缓存优化：
- 通过 aclrtMemcpyBatchAsync 实现批量 KV 缓存卸载 (#7819)
- 通过在 all-gather 之前选择块来优化 KV 缓存收集 (#8050)
算子优化：
- 优化 split_qkv_tp_rmsnorm_rope 算子 (#8059)
- 优化 Qwen3Next/Qwen3.5 预填充阶段的主机-设备同步问题 (#7967)
- 减少 PCP/DCP (SFA) 的预填充 KV all-gather 通信 (#8043)
- 添加惩罚相关的 Triton 内核以提升惩罚性能 (#7569)
Triton 内核优化 (model_runner_v2)：
- 优化 _temperature_kernel 和 _topk_log_softmax_kernel (#8083)
- 优化 _min_p_kernel 性能 (#8243, #7767)
- 添加 bad-words-kernel triton 内核 (#8030)
- 优化 bincount_kernel 性能 (#7757)
- 优化 _ranks_kernel 性能 (#7767)
- 优化由函数参数触发的 triton 重编译 (#7480, #7481, #7483)
HCCL 进程组复用：在 Ascend 上复用等效的 HCCL 进程组 (#7654)
CPU 绑定延迟：将 CPU 绑定延迟至 worker 预热完成 (#7829)
Conv3d 转 Linear：当 kernel 大小等于 stride 时将 conv3d 转换为 linear (#8318)

依赖项#

vLLM：升级至 vLLM v0.19.1 (#8448)
Transformers：从 4.57.4 升级至 transformers 5.5.3，这是一次重大版本升级，包含显著改进和 API 变更 (#8448)
lm-eval：升级至 lm-eval 0.4.11 以兼容 transformers 5.5.3 (#8448)
新增依赖项：在 requirements 中添加了 memcache 和 memfabric (#8747)

文档#

PD 分离指南：
- 使用 UCM 和 Mooncake 的 PD 分离 (#8338)
- 动态分块流水线并行指南 (#8728)
模型文档：
- GLM-5.1 模型教程 (#8054)
- GLM4.7 文档更新 (#8450)
- GLM5 文档（含参数和常见问题解答）(#7958, #7850)
- Qwen3.5 用户指南更新 (#7866)
- Kimi-K2.5 文档更新 (#7901)
- Qwen3-Omni-30B-A3B-Thinking 文档 (#8628)
- DeepSeekOCR2 文档 (#8573)
- Hunyuan-A13B-Instruct 验证与文档 (#7381)
- LLaVA-OneVision-Qwen2-0.5B-OV 教程 (#7912)
文档改进：
- 启用 Markdown 公式的 MathJax 渲染 (#8793)
- 更新版本策略 (#8656)
- 在常见问题解答中添加抢占描述 (#8131)
- 更新支持的 vLLM 版本 (#7923)
- 参数化版本策略兼容性矩阵 (#8002)
- 避免隐藏 NPU 导致的 A2 CPU 绑定重叠及文档更新 (#8792)

其他#

重要 Bug 修复：

GQA C8 Fullgraph：修复了 GQA C8 fullgraph 模式下的一个 bug (#8779)
DSV3.1 W4A8 TTFT：回退 balance_flag 的变更以修复 DSV3.1 W4A8 TTFT 性能下降 (#8675)
DSV3.1 服务启动：修复 DeepSeek-V3.1 服务启动失败的问题 (#8208)
Qwen3.5 MoE 高并发：修复 dp>1 时高并发下 Qwen3.5 MoE FC1 错误 (#8396)
Qwen3.5 MoE Flash Comm：修复 A2 上 Qwen3.5 MoE flash comm v1 mtp 层共享专家形状错误 (#7683)
图捕获OOM：修复了 model_runner_v2 中的图捕获内存溢出问题(#8111)
DeepSeek 3.2 C8精度：通过回退量化层修复了 DeepSeek 3.2 C8 的精度问题(#7628)
DeepSeek 3.2 DCP MTP：修复了 ds3.2 dcp mtp 问题(#7617)
MTP1并发崩溃：修复了 MTP1 在多个并发场景下的崩溃问题(#7459)
投机解码+异步：修复了投机解码和异步的 bug(#8461)
投机解码+Logprobs：修复了禁用异步调度时投机解码+logprobs 的崩溃问题(#7861)
重复惩罚：修复了异步调度中 repetition_penalty 无效的问题(#7789)
P/D KV缓存：修复了 P/D 场景中 TP 不相等时 MTP 层的 KV 缓存问题(#8540)
P/D短序列：修复了 P/D 模式下短序列无响应的问题(#8104)
P/D重试机制：添加了重试机制以防止 P/D 中的丢包(#8166)
分层连接器OOM：修复了大缓冲区传输时分层的连接器内存溢出问题(#7834)
KV池Put逻辑：修复了 KV 池未放入 KV 缓存的问题，并修复了 KV 传输的 Put 逻辑(#7875, #7717)
KV池PCP/DCP：修复了 KV 池的 PCP 和 DCP bug(#8099)
Mooncake后端：MooncakeBackend 处理 Ascend 之外的协议(#8514)
FlashComm服务器初始化：修复了使用 FLASHCOMM 时 max_num_seqs 不是 tp 倍数时的服务器初始化错误(#7801)
Triton重装：在 vllm-ascend 安装后重新安装 triton-ascend(#7790)
DBO兼容性：为 Ascend NPU 上的 --enable-dbo 添加了兼容性保护(#8507)
NPU上的GPU参数：在 Ascend NPU 上保护 GPU 特定的并行配置参数(#8703)
A2 CPU绑定：避免隐藏 NPU 导致的 A2 CPU 绑定重叠(#8792)
FIA填充Bug：修复了 EAGLE 最大并发下的 FIA 填充 bug(#7740)
MoE加载精度：修复了 allgather 中 moe_load 的精度问题(#7887)
Qwen的FlashComm1+DCP：支持 Qwen 模型的 FlashComm1 和 DCP(#7673)
块验证：禁用块验证以避免 NPU 上的错误验证(#7603)
Model Runner V2全图：修复了全图模式下的 model_runner_v2(#7945)
MRv2投机解码：修复了 mrv2 在投机解码时的运行时错误(#8209)
GLM工具调用流式：修复了 GLM 工具调用流式问题(#8832)
强制工具选择：修复了强制工具选择的 none-content 处理(#8833)
MiniMax推理用量：修复了 MiniMax 推理用量统计(#8831)

其他Bug修复：

MTP 在 lmhead TP logits 截断后的循环批次大小(#8718)
修复了 DSV32 混合部署中 layer_sharding 导致的错误(#8717)
EPLB topk_ids 使用逻辑专家计数(#8501)
EPLB 验证逻辑优化及 MTP 支持冗余专家(#8710)
SP 在 MoE 序列并行中保留图字符串化(#8780)
SpecDecode 修复 draft quarot 模型加载超时(#8736)
修复 _dummy_run 预热与 --language-model-only 不匹配的问题(#8556)
修复 AscendYaRNRotaryEmbedding 中的 AttributeError(#8734)
Eagle3 添加全图形案例并检查 mock 函数 (#8668)
修复 npu_fused_infer_attention_score_v2 中的 atten_mask (#8387)
修复 eagle 与 dflash 在 pcp 上的冲突 (#8598)
修复 DeepSeek 3.2 PCP+MTP 的 slot 映射错误 (#8547)
dispatch_ffn_combine 内核回滚 (#8539)
层分片需要 KV 生产者 (#8562)
310P 使用 CPU 生成器缓存进行采样 (#8495)
修复 pcp+eagle3 的 compute_slot_mapping triton (#8435)
在 fuse_moe 中处理基于枚举的 MoE 激活 (#8465)
按 PD 模式门控 recompute/balance/fused_mc2 (#8373)
w8a8 dispatch ffn combine 偏置参数适配 (#8342)
修复 flashcomm1 下 GLM-5 的 w8a8_static 中 quant_bias 缺失问题 (#8220)
修复 deepseek v3.2 的 DSA-CP PD 角色门控 (#8290)
逐层 AscendStorConnector 需要分段 cudagraph (#8283)
修复 patch balance 调度器中的远程 KV 等待提升问题 (#8279)
对 CPU 绑定子进程解析强制执行 C 语言环境 (#8251)
在 mlapo 分支 SFA 中添加 wait_for_kv_layer_from_connector (#8195)
修复 SP 填充时的维度不匹配问题 (#7858)
310P 修复 Triton 内核 block_table 崩溃 (#8144)
修复短提示的注意力状态 (#8029)
310P 修复图模式下后采样不工作问题 (#8017)
310P 使 GDN 状态语义与 vLLM 对齐 (#7902)
310P 处理 ShardedStateLoader310 中的空量化配置 (#7546)
在 eager 模式下启用 SP 和 eagle3 时取消填充 block table (#7986)
修复 qwen3-next 编译错误 (#7936)
修复 qwen3-vl 的 weightsmapper 错误 (#7869)
修复量化配置属性错误 (#7736)
移除 eplb 不必要的 weight_scale 包装行为 (#7733)
适配 model runnerv2 的 main2main 并在休眠模式添加垃圾回收 (#7709)
修复嵌入模型的前缀缓存支持 (#7452)
在图+强化学习场景中复用权重地址 (#7473)

已知问题#

在单节点（非 PD 分离）场景下运行 GLM-5 / GLM-5.1 模型时，可能出现错误结果或运行时错误。详情及解决方法请参见 #8843。
triton-ascend 可能因 g++ 内部编译器错误（段错误）而编译失败。解决方法：更新到 triton-ascend==3.2.0.dev20260322 并清除 Triton 缓存（rm -rf ~/.triton/cache/*）。#7782
torch-npu：由于已知问题，请升级至 2.9.0.post1+git4c901a4。该版本无法默认安装，请手动升级。安装包可通过以下链接获取：https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/torch_npu-2.9.0.post1%2Bgit4c901a4-${PYTHON_TAG}-${PYTHON_TAG}-manylinux_2_28_${ARCH}.whl。 附注： 如果 CANN 已升级至 9.0.0 版本，请同步升级 torch-npu 至 2.9.0.post2。

v0.18.0rc1 - 2026年04月01日#

这是 vLLM Ascend v0.18.0 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

C8（INT8 KV 缓存）现已支持 GQA 注意力模型，并且在 PD 解耦场景下的 DeepSeek-V3.1 中也得到支持。#7474, #7222
通过新的 MLA 算子，DeepSeek 模型现已在 A5 上得到支持。#7232

功能#

Flash Comm V1 现已支持使用 MLA 的 VL 模型，移除了之前对多模态服务的一个限制。#7390
支持在推测式解码中为目标模型和草稿模型使用独立的注意力后端，允许针对每个模型进行更精细的后端调优。#7342
VL MoE 模型现在支持 SP，并且移除了 sp_threshold，转而采用 vLLM 的 sp_min_token_num。#7044
Qwen VL 模型现在支持 w8a8_mxfp8 量化。#7417

性能#

优化了 Triton 算子的重编译，以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645
通过预构建分块元数据，优化了 Qwen3.5 和 Qwen3-Next GDN 的预填充路径，减少了主机-设备同步开销。#7487
简化了 FIA 预填充上下文合并路径，以提高运行时效率。#7293

文档#

更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档，以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300

其他#

修复了一个 PD 解耦问题，该问题曾导致解码节点因 DP 节点间形状未对齐而卡住。#7534
修复了一个回归问题，该问题导致升级到 v0.18.0 后，Ascend 上的混合注意力加 Mamba 模型可能以错误的块大小启动。#7528
修复了单卡部署中多实例服务 OOM 计算的问题。#7427
修复了在叠加 MTP 与完全解码和全图模式时 DeepSeek v3.1 C8 的问题。#7571
通过将反向映射改为前向映射，修复了 AscendModelSlimConfig 中的量化配置键映射。#7716

已知问题#

在高并发下运行启用了 MTP 和 KV Pool 的 DeepSeek-R1 W8A8 时，可能会出现 ValueError: Counters can only be incremented by non-negative amounts 错误。#7489
triton-ascend 可能因 g++ 内部编译器错误（段错误）而编译失败。解决方法：更新到 triton-ascend==3.2.0.dev20260322 并清除 Triton 缓存（rm -rf ~/.triton/cache/*）。#7782
在 Ascend 上使用 tp-size >= 16 时，FIA 不支持所有的 MHA 头维度。受影响的模型会因不支持的头部维度而出错。这将在未来的版本中，当 FIA 支持更多头部维度时得到解决。#7729
尽管 Minimax-2.5 现在支持 PD 解耦，但内部测试发现启用此功能时，在 GPQA 基准测试上会出现 13% 的性能回退。我们目前不建议为此模型启用 PD 解耦，并且我们正在努力进行优化修复。

v0.17.0rc1 - 2026年03月15日#

这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

现已支持 Ascend950 芯片。#7151
Model Runner V2 现已支持 ACLGraph（图模式）。#7110
支持统一的并行化推测解码，可同时启用并行草稿推理方案。#6766

功能#

支持从模型文件自动检测量化格式，同时也支持远程模型ID（例如 org/model-name）。现在不再需要 --quantization ascend 参数。#7111
从本版本开始支持 Qwen3.5。
用于 EPLB 的 FlashLB 算法：支持每步热度收集和多阶段负载均衡，以提高专家并行效率。#6477
已修复并支持了结合张量并行和 --fully-sharded-loras 的 LoRA。#6650
新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。#6882
在 PD-mix 场景下，DeepSeek-V3.2 现已支持 W8A8C8 量化。#7029
[实验性] Ascend NPU 现已支持 Minimax-m2.5 模型。#7105
[实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。#7022
[实验性] 混合模型现已支持前缀缓存。#7103

性能#

流水线并行现在支持异步调度，提高了 PP 部署的吞吐量。#7136
通过减少日志开销，改善了使用 Mooncake 连接器时的首令牌延迟。#6125
针对短序列（令牌长度 < block_size）优化了 KV 池查找。#7146
修复了 Model Runner V2 中的惩罚操作，实现了约 10% 的性能提升。#7013

文档#

新增了 EPD（编码-预填充-解码）文档和负载均衡代理示例。#6221
新增了 Ascend PyTorch Profiler 使用指南。#7117
修复了 DSV3.1 PD 配置文档。#7187

其他#

修复了推测解码在全图模式下草稿器崩溃的问题。#7158 #7148
修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。#7139
修复了 310P 上 ngram 图重放的精度错误。#7134
在上游 vLLM 变更后，修复了图模式下的 FIA 填充逻辑。#7144
修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。#7209
修复了在 rank0 设备上产生额外进程的问题。#7107
图捕获失败现在会正确抛出异常，便于调试。#5644
通过将 torch_npu.npu_recurrent_gated_delta_rule 替换为 fused_recurrent_gated_delta_rule 来修复 Qwen3.5 模型。#7109
修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156

已知问题#

GLM5 需要 transformers==5.2.0，此问题将通过 vllm-project/vllm#30566 解决，不会包含在 v0.17.0 中。
由于 TP 权重分割方法变更，Qwen3-Next 存在精度问题。将在下个版本中修复。
在混合模型中，当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关，例如，当 TP=2 时，block_size 调整为 2048，这意味着任何短于 2048 的前缀都不会被缓存。
GLM5 在 2 节点 PD 混合部署场景中存在一个问题：当并发数超过 8 时，推理可能会挂起（已在 PR #7235 和 #7290 中修复）。

v0.16.0rc1 - 2026年03月09日#

这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

现已提供 Qwen3-Omni 量化适配和优化。#6828
通过参数化硬编码的 MLA 维度，现已支持 GLM5-W8A8 量化。#6902

功能#

[实验性] 支持 ADXL/HIXL 互连的 FabricMem 模式。#6806
Qwen3-Next 现已支持 FlashComm1。#6830
NPUWorker Profiler 现已支持 profile_prefix，以提供更优的性能分析体验。#6968
EPLB 性能分析现在会显示专家热度对比以及 EPLB 调整所需的时间。#6877 #7001
Xlite Qwen3 MoE 现已支持数据并行（Data Parallel）。#6715
Mooncake Layerwise Connector 现已支持 kv_pool。#7032
Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038

硬件与算子支持#

310P 现已支持 w8a8sc 量化方法。#7075
为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661
新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725
为 MoE 模型新增了 GMM 自定义算子。#7010

性能#

更快的卷积计算将 Qwen3-VL 模型的首次令牌时间（TTFT）提升了 0.95%，吞吐量提升了 0.59%。#7017
优化了 split_qkv_rmsnorm_rope 算子。#6827
实现了全局 CPU 切片并改进了 Ascend NPU 的 IRQ 绑定，确保 CPU 分区不重叠，实现更优的资源管理。#6945
通过重排状态更新操作优化了 MTP 执行。#6844
通过使用完整张量拷贝，避免了 mrope_positions 拷贝时的 CPU 同步。#7014
移除了 MoE 模型中 expert_map 的 H2D 同步。#7000

依赖项#

CANN 已升级至 8.5.1，如果您未使用官方镜像，请记得手动升级。#6897

弃用与重大变更#

配置选项 enable_flash_comm_v1 已重命名回 enable_sp。#6883
从模型文件自动检测量化格式的功能已回退。在 v0.16.0rc1 版本中，要服务由 modelslim 量化的模型，仍需添加 --quantization ascend 参数。在修复了远程模型 ID 相关的 bug 后，此功能将在下一版本中重新加入。#6873

文档#

新增了 CPU 绑定的用户/开发者指南。#7045
新增了指标使用文档和示例。#6962
新增了用于 LLM 发现的 llms.txt 文件。#6886
新增了 GLM4.x 多节点部署教程。#6872
新增了对 310p 特殊参数 max-model-len 的说明。#7065

其他#

修复了 openEuler Dockerfile 错误。#6871
多项错误修复，包括：
- 修复了启用上下文并行（Context Parallel）时的 Eagle 推测解码问题。#6981 #7079
- 修复了上游 vLLM 变更引入的 LoRA 精度问题。#6958
- 修复了负载均衡代理服务器中的流式传输 content-type 问题。#6985
- 修复了元数据执行错误：整数除以零取模。#6521
- 修复了 triton rope_siso 实现中的 bug。#7082
- 修复了 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064
- 修复了 CANN b020 之后版本的编译错误。#7059
- 修复了 GLM4.6V 中的量化配置支持问题。#7062
- 修复了 _merge_multimodal_embeddings 中的参数顺序错误。#7068
- 修复了 EPLB 中的融合 mc2 错误。#6794
- 修复了计算槽位映射时的内核块大小问题。#7019
- 修复了 P/D 解耦中分层堆叠 MTP 的错误。#7036
- 修复了 npu_rotary_embedding 的 RoPE 维度问题。#6880
- 修复 Qwen-Omni 量化错误。#7042 #7007
- 修复图模式下 GDN 层精度问题。#6822
- 修复 PD 解耦中 PCP/DCP 的精度错误。#6876
- 修复 PD 解耦中的 MTP 问题，为所有 D 节点提供全图支持。#6948
- 修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012
- 修复 MTP 预填充被误分类为解码的边缘情况。#6835
- 修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914
- 修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939
- 修复 Qwen2.5VL 精度问题。#6975
- 修复启用静态内核时的 MoE 前向传播错误。#6964
- 修复 GLM5 模型的 muls_add 融合问题。#6928
- 修复多模态模型的 GDN 层检测问题。#6941
- 修复 300I 非量化模型的权重 nd2nz 错误。#6851
- 修复 CPU 绑定逻辑。#6889
- 修复 Eagle 全图形状捕获问题。#6846

已知问题#

目前，对于 DeepSeek v3.2，PCP 和 DCP 尚不能与 FlashComm1 功能协同工作，这可能导致服务错误或其他未知错误。
在采用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中，P 节点在高并发场景（例如，2K/2K tokens 和 512 个并发请求）下进行基准测试时可能出现挂起。
具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个 bug，目前有一个临时解决方案可以避免此问题：显式设置 --compilation-config '{"max_cudagraph_capture_size": N}'，其中 N = max_concurrency × (1 + num_speculative_tokens)。

v0.15.0rc1 - 2026.02.27#

这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

NPU Graph EX (npugraph_ex) 默认启用：npugraph_ex 功能现已默认启用，通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006
310P MoE 和 W8A8 支持[实验性]：310P 现已支持 MoE 模型、W8A8 量化和 weightNZ 功能，显著扩展了硬件能力。#6530 #6641 #6454 #6705
Qwen3-VL-MoE EAGLE 支持：为 Qwen3-VL-MoE 模型添加了 EAGLE 推测式解码支持。#6327
Kimi-K2.5 模型支持：添加了对 Kimi-K2.5 模型的支持。请注意，vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题，请应用上游 vllm-project/vllm 仓库的更改，特别是来自拉取请求 #33320 和 #34501 的更改。#6755

功能#

自动检测量化格式：现在可以从模型文件自动检测量化格式。#6645
GPT-OSS Attention 支持：添加了 GPT-OSS attention 实现。#5901
SFA 的 DCP 支持：为 SFA 架构添加了解码上下文并行 (DCP) 支持。#6563
Mooncake 分层 PCP 支持：Mooncake 分层连接器现在支持 PCP 功能。#6627
Mooncake 连接器远程 PTP 大小：Mooncake 连接器现在可以获取远程 PTP 大小。#5822
KV 池稀疏注意力：KV 池现在支持稀疏注意力。#6339
使用 AscendC 实现批处理不变性：使用 AscendC 实现了批处理不变性功能。#6590
路由重放：新增路由重放功能。#6696
压缩张量 MoE W4A8 动态权重：新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889
GLM4.7-Flash W8A8 量化：为 GLM4.7-Flash 新增 W8A8 量化支持。#6492
DispatchGmmCombineDecode 增强：DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393
RMSNorm 动态量化融合：新增 rmsnorm 动态量化融合 pass。#6274
工作进程健康检查接口：为工作进程新增 check_health 接口。#6681

硬件与算子支持#

310P 支持扩展：针对 310P 硬件的多项改进：
- 修复了 310P 上的注意力精度问题。#6803
- 为 310P 新增 weightNZ 特性，支持量化或非量化权重。#6705
- 为 300I DUO 新增 addrmsnorm 支持。#6704
- 310P 现在支持 PrefillCacheHit 状态。#6756
仅 ARM CPU 绑定：启用了仅 ARM CPU 绑定，采用 NUMA 均衡的 A3 策略。#6686
Triton Rope 增强：Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450
AscendC 融合算子：新增 AscendC 融合算子 transpose_kv_cache_by_block，以加速 GQA 传输。#6366
Rotary_dim 参数：在 rotary_embedding 中使用部分 rope 时，新增对 rotary_dim 参数的支持。#6581

性能#

多模态 seq_lens CPU 缓存：使用 seq_lens CPU 缓存以避免频繁的 D2H 拷贝，从而提升多模态性能。#6448
DispatchFFNCombine 优化：优化了 DispatchFFNCombine 内核性能，并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707
DeepSeek V3.2 KVCache 优化：优化了 DeepSeek V3.2 的 KV 缓存使用。#6610
MLA/SFA 权重预取：重构了 MLA/SFA 权重预取，使其与 MoE 权重预取保持一致。#6629
MLP 权重预取：重构了 MLP 权重预取，使其与 MoE 模型的预取机制保持一致。#6442
自适应块大小选择：在 linear_persistent 内核中新增自适应块大小选择功能。#6537
EPLB 内存优化：减少了 EPLB 中用于热度聚合的内存占用。#6729
内存迁移与中断核心绑定：改进了绑定逻辑，增加了内存迁移和中断核心绑定功能。#6785
Triton 稳定性：提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301

依赖项#

Mooncake：升级至 v0.3.8.post1。#6428

弃用与重大变更#

ProfileExecuteDuration：清理并弃用了 ProfileExecuteDuration 功能。#6461
自定义 rotary_embedding 算子：移除了自定义 rotary_embedding 算子。#6523
USE_OPTIMIZED_MODEL：清理了未使用的环境变量 USE_OPTIMIZED_MODEL。#6618

文档#

新增了 vllm-ascend 的 AI 辅助模型适配工作流文档。#6731
新增了 vLLM Ascend 开发指南 (AGETNS.md)。#6797
新增了 GLM5 教程文档。#6709 #6717
新增了 Memcache 使用指南。#6476
新增了请求转发文档。#6780
新增了后缀推测解码的基准测试教程。#6323
重构了教程文档结构。#6501
新增了 npugraph_ex 介绍文档。#6306

其他#

PD 全图中的 MTP：修复了在 PD 部署中运行 MTP 时，全图对所有 D-Nodes 的支持问题。#5472
DeepSeekV3.1 精度：修复了 DeepSeekV3.1 的精度问题。#6805
EAGLE 重构：已将 MTP 路由至 EAGLE，但 PCP/DCP+MTP 的情况除外。#6349
推测解码准确性：修复了 vLLM 0.15.0 中的推测接受率问题。#6606
PCP/DCP 准确性：修复了 PCP/DCP 在使用推测解码时的准确性问题。#6491
动态 EPLB：修复了动态 EPLB 无效的 bug，且 EPLB 不再依赖于特定模型。#6653 #6528
KV 池 Mooncake 后端：正确初始化了 mooncake 后端的 head_or_tp_rank。#6498
分层连接器重计算调度器：分层连接器现在支持重计算调度器。#5900
内存缓存池：修复了启用内存缓存池时服务启动失败的问题。#6229
AddRMSNormQuant：修复了 AddRMSNormQuant 未生效的问题。#6620
池化代码：修复了池化代码问题并更新了使用指南。#6126
上下文并行：修复并统一了 PD 请求判别逻辑。#5939
npugraph_ex：修复了重复模式问题，并为 allreduce rmsnorm 融合通道添加了额外检查。#6513 #6430
RecomputeScheduler：修复了 RecomputeScheduler 与 vLLM v0.14.1 不兼容的问题。#6286

v0.13.0 - 2026年02月06日#

这是 vLLM Ascend v0.13.0 的最终版本。请按照官方文档开始使用。

亮点#

模型支持

DeepSeek-R1 & DeepSeek-V3.2：[实验性]性能优化和异步调度增强。#3631 #3900 #3908 #4191 #4805
Qwen3-Next：[实验性]全面支持 Qwen3-Next 系列模型（包括 80B-A3B-Instruct），支持全图模式、MTP、量化（W8A8）、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。#3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770
InternVL：添加了对 InternVL 模型的支持，包含全面的端到端测试和准确性评估。#3796 #3964
LongCat-Flash：[实验性]添加了对 LongCat-Flash 模型的支持。#3833
minimax_m2：[实验性]添加了对 minimax_m2 模型的支持。#5624
Whisper 与交叉注意力：[实验性]添加了对交叉注意力和 Whisper 模型的支持。#5592
池化模型：[实验性]添加了对池化模型的支持，并进行了 PCP 适配，修复了多个与池化相关的 bug。#3122 #4143 #6056 #6057 #6146
PanguUltraMoE：[实验性]添加了对 PanguUltraMoE 模型的支持。#4615

核心功能

上下文并行 (PCP/DCP)：[实验性] 全面支持预填充上下文并行 (PCP) 和解码上下文并行 (DCP)，集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能，欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672
全图模式 (ACLGraph)：[实验性]增强了全图模式，支持 GQA，进行了内存优化，统一了 ACLGraph 与 Torchair 之间的逻辑，并提高了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118
多令牌预测 (MTP)：显著改进了 MTP 支持，包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下都能工作，建议使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477
Eagle 推测解码：Eagle 推测解码现已支持全图模式且更加稳定。#5118 #4893 #5804
预填充-解码解耦：将 ADXL 引擎设置为解耦预填充的默认后端，提升了性能和稳定性。为 DeepSeek 解码节点添加了对 KV NZ 特性的支持。#3761 #3950 #5008 #3072
KV 池与 Mooncake：增强了 KV 池，支持 Mooncake 连接器用于 PCP/DCP、多输入后缀，并提升了 Layerwise Connector 的性能。#3690 #3752 #3849 #4183 #5303
EPLB（弹性预填充负载均衡）：[实验性]EPLB 现已更加稳定，修复了多个错误。混合放置现已可用。#6086
仅全解码模式：在 full_decode_only 模式下添加了对 Qwen3-Next 和 DeepSeekv32 的支持，并修复了相关错误。#3949 #3986 #3763
Model Runner V2：[实验性]添加了对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210

功能#

W8A16 量化：[实验性]添加了对新的 W8A16 量化方法的支持。#4541
UCM 连接器：[实验性]为 KV 缓存卸载添加了 UCMConnector。#4411
批次不变性：[实验性]实现了批次不变性特性的基础框架。#5517
采样：在 Eagle 中增强了采样功能，支持 async_scheduler 和 disable_padded_drafter_batch。#4893

硬件与算子支持#

自定义算子：添加了多个自定义算子，包括：
- 融合的 matmul/reduce-scatter 内核 #3693
- mrope 融合算子 #3708
- 用于 Qwen3-Next 的 Triton chunk_gated_delta_rule 算子 #4070
- l2norm triton 内核 #4595
- RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine 自定义算子
算子融合：添加了支持 SP 的 AddRmsnormQuant 融合模式以及用于量化的 inductor 融合。#5077 #4168
MLA/SFA：将 SFA 重构为 MLA 架构，以提高可维护性。#3769
FIA 算子：适配了具有 flash decoding 功能的 npu_fused_infer_attention_score。为优化小批次场景下的性能，现提供此注意力算子。请参考常见问题第 22 条以启用它。#4025
CANN 8.5 支持：在启用 FIA 算子后，为 CANN 8.5 移除了 CP 冗余变量。#6039

性能#

本版本添加了许多自定义算子和 Triton 内核以加速模型性能：

DeepSeek 性能：[实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用，提升了 DeepSeek V3.2 的性能。#4805 #2713
Qwen3-Next 性能：[实验性]通过 Triton 算子和优化提升了性能。#5664 #5984 #5765
FlashComm：通过 o_shared linear 和通信域修复增强了 FlashComm v2 优化。#3232 #4188 #4458 #5848
MoE 优化：针对 MoE 模型优化了 all2allv 并增强了 all-reduce 跳过逻辑。#3738 #5329
注意力优化：将注意力更新流移出循环，为长序列优化将 BSND 格式转换为 TND 格式，并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390
量化性能：在 Allgather EP 中将量化操作移至 allgather 之前。#3420
Layerwise 连接器：[实验性]提升了 Layerwise Connector 的性能。#5303
前缀缓存：提升了前缀缓存特性的性能。#4022
异步调度：修复了异步复制并消除了异步调度中的挂起问题。#4113 #4233
内存操作：移除了冗余的 D2H 操作，并删除了 model_runner 中的冗余操作。#4063 #3677
Rope 嵌入：使用 Triton 内核优化了 rope 嵌入，带来巨大的性能提升。#5918
采样：新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098
多模态：在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

依赖项#

CANN：已升级至 8.5.0 #6112
torch-npu：已升级至 2.8.0.post2。默认安装在 Docker 容器中。
triton-ascend：已升级至 3.2.0 #6105
vLLM：已升级至 0.13.0 并停止支持 0.12.0。#5146
Transformers：已升级至 >= 4.57.4 #5250

弃用与重大变更#

CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。
ProfileExecuteDuration 功能已弃用。
Ascend 调度器 已被移除。#4623
Torchair 已被移除。#4814
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除，建议使用 VLLM_ASCEND_ENABLE_PREFETCH_MLP 替代，因为它们通常总是同时启用。#5272
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270
由于我们注意到在某些浮点权重场景下性能不佳，现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效，可以手动将其设置为 2。#4878
additional_config 中的 chunked_prefill_for_mla 现已被移除。#5296
additional_config 中的 dump_config 已重命名为 dump_config_path，且类型从 dict 更改为 string。#5296
用于嵌入模型的 --task 参数 已弃用。#5257
VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。默认将在解码节点启用。请注意，此功能会消耗更多内存。如果您对内存敏感，请将其设置为 False。

文档#

新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南
新增了多个模型的教程，包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型
更新了常见问题解答和配置文档

其他#

OOM 修复：VL 模型上的 OOM 错误现已修复。我们正在持续观察，如果您再次遇到 OOM 问题，请提交 issue。#5136
Qwen3-Next-MTP 精度：修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932
ZMQ 错误修复：修复了 zmq 发送/接收失败的错误。#5503
权重转置：修复了 RL 场景中的权重转置问题。#5567
Eagle3 SP：使 SP 适配 eagle3。#5562
GLM4.6 MTP：GLM4.6 现在支持全图模式下的 MTP。#5460
Flashcomm2 Oshard：Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723
细粒度共享专家重叠：支持细粒度的共享专家重叠。#5962

已知问题#

由于 transformers 包的升级，某些模型的量化权重（如 qwen2.5vl、gemma3、minimax）可能无法工作。我们将在下一个补丁版本中修复此问题。#6302
Qwen3-32B 在 128K 输入长度场景下的性能可能不佳，建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。
Qwen3-235B、Qwen3-480B 在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个补丁版本中改进。
在预填充-解码场景下部署 deepseek3.1 时，请确保解码节点的 TP 大小大于 1。TP=1 无法工作。这将在下一个 CANN 版本中修复。

v0.14.0rc1 - 2026年1月26日#

这是 vLLM Ascend v0.14.0 的第一个候选发布版本。请按照官方文档开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级，请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。

亮点#

现已恢复对 310P 的支持。在此版本中，仅支持基础密集模型和 VL 模型，且使用 Eager 模式。我们将持续改进和维护对 310P 的支持。#5776
支持压缩张量的 MoE w8a8-int8 量化。#5718
支持 Medusa 推测式解码。#5668
支持 Qwen3vl 使用 Eagle3 推测式解码。#4848

功能#

Xlite 后端现已支持 Qwen3 MoE 模型。#5951
支持在 PD-mix 部署场景中使用 DSA-CP。#5702
新增对 W4A4_LAOS_DYNAMIC 量化方法的支持。#5143

性能#

Qwen3-next 模型的性能已得到提升。#5664 #5984 #5765
CPU 绑定逻辑和性能已得到改进。#5555
合并 Q/K 拆分以简化 AscendApplyRotaryEmb，从而提升性能。#5799
新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在 --additional_config 中设置 fuse_allreduce_rms=True 以启用它。#5034
使用 triton 内核优化 rope embedding，以获得巨大的性能提升。#5918
支持无 top_k 约束的高级 apply_top_k_top_p。#6098
在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

其他#

model runner v2 支持 triton 惩罚算子。#5854
model runner v2 支持 eagle 推测式解码。#5840
通过默认设置 expandable_segments:True 修复多模态推理 OOM 问题。#5855
VLLM_ASCEND_ENABLE_MLAPO 默认设置为 True。在 PD 部署场景中，解码节点会自动启用此功能。请注意，此功能会消耗更多内存。如果您对内存敏感，请将其设置为 False。#5952
对于使用 mooncake 分层连接器的 PD 部署，SSL 配置可以设置到 kv_extra_config 中。#5875
支持 --max-model-len auto。#6193

依赖项#

torch-npu 已升级至 2.9.0 版本。#6112

弃用与重大变更#

EPLB 配置选项已移至 additional config 中的 eplb_config。旧选项在此版本中已被移除。
性能分析器环境变量，例如 VLLM_TORCH_PROFILER_DIR 和 VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY，现已不再适用于 vLLM Ascend。请改用 vLLM 的 --profiler-config 参数。#5928

已知问题#

如果您有时遇到来自 EngineCore 进程的 pickle 错误，请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。

v0.13.0rc2 - 2026年1月24日#

这是 vLLM Ascend v0.13.0 的第二个候选发布版本。在此 rc 版本中，我们修复了大量错误并提升了多款模型的性能。请按照官方文档开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。

亮点#

在此版本中，我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误，并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 等模型的性能。

功能#

实现批处理不变性的基础框架 #5517
Eagle 推测式解码功能现在可与全图模式协同工作。#5118
上下文并行（PCP&DCP）功能现在更加稳定，适用于大多数场景。请尝试使用。
MTP 和 eagle 推测式解码功能现在在大多数情况下都能正常工作。建议在大多数情况下使用它们。
EPLB 功能现在更加稳定。修复了许多错误。混合放置现已可用 #6086
支持在 disagg-prefill 场景中为 DeepSeek 解码节点使用 kv nz 功能 #3072

模型支持#

现已支持 LongCat-Flash 模型。#3833
现已支持 minimax_m2 模型。 #5624
支持 cross-attention 和 whisper 模型 #5592

性能#

此版本中添加了许多自定义算子和 triton 内核，以加速模型性能。例如 RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine 等。
提升了 Layerwise Connector 的性能 #5303

其他#

基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代引擎，将在未来版本中默认使用。#5210
修复了 zmq 发送/接收可能失败的 bug #5503
支持 Qwen3-Next-MTP 使用全图模式 #5477
修复了强化学习场景中的权重转置问题 #5567
使 SP 适配 eagle3 #5562
上下文并行（PCP&DCP）支持 mlapo #5672
GLM4.6 支持全图模式下的 mtp #5460
Flashcomm2 现已支持 oshard 通用化特性 #4723
支持为 Eagle 草稿模型设置 tp=1 #5804
Flashcomm1 特性现已支持 qwen3-vl #5848
支持细粒度共享专家重叠 #5962

依赖项#

CANN 已升级至 8.5.0
torch-npu 已升级到 2.8.0.post1。请注意，该版本默认不会安装，请从 pypi 镜像站手动安装。
triton-ascend 已升级至 3.2.0

弃用与重大变更#

CPUOffloadingConnector 已被弃用，将在下一个版本中移除，未来将由 vLLM 的 CPUOffload 功能替代。
eplb 配置选项已移至附加配置中的 eplb_config，旧选项将在下一个版本中移除。
ProfileExecuteDuration 功能已被弃用，已被 vLLM 的 ObservabilityConfig 替代。
VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True，将在解码节点默认启用。请注意，此功能会消耗更多内存，如果您对内存敏感，请将其设置为 False。

v0.13.0rc1 - 2025.12.27#

这是 vLLM Ascend v0.13.0 的第一个候选发布版本，在此版本中完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend，请按照官方文档开始使用。

亮点#

提升了 DeepSeek V3.2 的性能，请参考教程
现已支持带分块预填充的 Qwen3-Next MTP #4770，请参考教程
[实验性功能] 已支持预填充上下文并行（Prefill Context Parallel）和解码上下文并行（Decode Context Parallel），请注意这目前是一个实验性功能，欢迎任何反馈。详情请参考上下文并行特性指南

功能#

支持 openPangu Ultra MoE #4615
现已支持新的量化方法 W8A16。#4541
现已支持跨机解耦预填充（Disaggregated Prefill）。#5008
为 KV 缓存卸载（Offloading）添加 UCMConnector。#4411
在 eagle 中支持 async_scheduler 和 disable_padded_drafter_batch。#4893
在全图模式（full graph mode）下支持 pcp + mtp。#4572
增强 NPUModelRunner 中 MoE 模型的 all-reduce 跳过逻辑。#5329

性能#

一些常规性能改进：

添加 l2norm triton 算子 #4595
为带 SP 的 AddRmsnormQuant 添加新模式，该模式仅在图模式下生效。#5077
在模型执行时添加异步指数计算。#4501
移除了 attention 后的转置步骤，并切换到 transpose_batchmatmul。#5390
为了优化小 batch size 场景下的性能，提供了一个带有 flash decoding 功能的 attention 算子，请参考常见问题 (FAQs) 第 22 条来启用它。

其它#

VL 模型上的 OOM 错误现已修复，我们正在持续观察，如果您再次遇到 OOM 问题，请提交 issue。#5136
修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932
修复了 npu-cpu offloading 接口变更导致的错误。#5290
修复了 aclgraph 模式下 MHA 模型的运行时错误。#5397
修复了 ep=1 场景下不合适的 moe_comm_type。#5388

弃用与重大变更#

移除了 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE，建议替换为 VLLM_ASCEND_ENABLE_PREFETCH_MLP，因为它们通常同时启用。#5272
现已废弃 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。#5270
由于在某些 float 权重场景下性能不佳，现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效，可以手动将其设置为 2。#4878
现已废弃 additional_config 中的 chunked_prefill_for_mla。#5296
additional_config 中的 dump_config 已重命名为 dump_config_path，且类型从 dict 更改为 string。#5296

依赖项#

vLLM 版本已升级到 0.13.0，并停止对 0.12.0 的支持。#5146
Transformer 版本已升级至 >= 4.57.3 #5250

已知问题#

Qwen3-Next 不支持长序列场景，运行 Qwen3-Next 时应根据文档限制 gpu-memory-utilization。我们将在下一个版本中改进这一点。
修复了 Qwen3-Next 在输入/输出约为 3.5k/1.5k 时的功能中断问题，但这导致了性能下降。我们将在下一个版本中修复它。#5357
DeepSeek-V3.2 中超短序列的 curl 操作存在精度问题。我们将在下一个版本中修复此问题。#5370

v0.11.0 - 2025.12.16#

我们很高兴地宣布 vLLM Ascend v0.11.0 正式发布。这是 v0.11.0 的官方版本。请按照官方文档开始使用。如有需要，我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。

亮点#

提升了 DeepSeek 3/3.1 的性能。#3995
修复了 Qwen3-VL 的精度错误。#4811
提升了采样（sample）的性能。#4153
Eagle3 现已回归。#4721

其它#

提升了 kimi-k2 的性能。#4555
修复了 deepseek3.2-exp 的一个量化错误。#4797
修复了高并发下 qwen3-vl-moe 的错误。#4658
修复了预填充解码解耦（Prefill Decode disaggregation）场景下的一个精度错误。#4437
修复了 EPLB 的一些错误。#4576 #4777
修复了 openEuler Docker 镜像的版本不兼容问题。#4745

弃用公告#

LLMdatadist connector 已被弃用，将在 v0.12.0rc1 中移除。
Torchair graph 已被弃用，将在 v0.12.0rc1 中移除。
Ascend scheduler 已被弃用，将在 v0.12.0rc1 中移除。

升级说明#

torch-npu 已升级至 2.7.1.post1。请注意，该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中，请自行手动安装。
CANN 已升级至 8.3.rc2。

已知问题#

在此版本中，Qwen3-Next 不支持专家并行（expert parallel）和 MTP 功能。并且如果输入过长，会导致内存溢出（OOM）。我们将在下一个版本中改进此问题。
在此版本中，Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适的值，例如 0.8。
如果同一节点上运行了多个 vLLM 实例，CPU 绑定功能将失效。

v0.12.0rc1 - 2025.12.13#

这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中，我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照官方文档开始使用。

亮点#

DeepSeek 3.2 现已稳定且性能得到提升。在此版本中，您无需安装任何其他软件包。请按照官方教程开始使用。
现已支持更多新模型，例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。

核心#

[实验性功能] 现已支持纯解码图模式（Full decode only graph mode）。虽然默认未启用，但我们建议在大多数情况下通过 --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' 启用它。如果您遇到任何错误，请告知我们。我们将在后续几个版本中持续改进并默认启用它。
新增了大量 triton 内核。vLLM Ascend 的性能（尤其是 Qwen3-Next 和 DeepSeek 3.2）得到了提升。请注意，triton 默认未安装且未启用，但我们建议在大多数情况下启用它。您可以从软件包地址手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend，则需要从源码自行构建 triton ascend。
新增了大量昇腾算子以提升性能。这意味着从本版本开始，vLLM Ascend 仅在使用自定义算子构建的情况下才能工作。因此，我们移除了环境变量 COMPILE_CUSTOM_KERNELS，您现在无法再将其设置为 0。
推测解码方法 MTP 现已更加稳定。它可以在大多数情况下启用，且解码令牌数量可以设置为 1、2、3。
现已支持推测解码方法 suffix。感谢招商银行的贡献。
llm-compressor 量化工具的 W8A8 现已可用。您现在可以直接部署使用该工具生成的 W8A8 量化模型。
W4A4 量化现已可用。
支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334
现已支持池化（Pooling）模型，例如 bge、reranker 等。
官方文档已得到改进。我们重构了教程以使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。

其它#

[实验性功能] 现已支持 Mooncake 分层连接器。
[实验性功能] 新增了 KV 缓存池功能
[实验性功能] 引入了一种新的图模式 xlite。它在某些模型上表现良好。请按照官方教程开始使用。
已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。
已移除 Ascend 调度器。--additional-config {"ascend_scheduler": {"enabled": true}} 不再生效。
已移除 Torchair 图模式。--additional-config {"torchair_graph_config": {"enabled": true}} 不再生效。请改用 aclgraph。
已移除 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION 环境变量。该功能已足够稳定，我们现在默认启用它。
推测解码方法 Ngram 现已回归。
新增了 msprobe 工具以帮助用户检查模型精度。请按照官方文档开始使用。
新增了 msserviceprofiler 工具以帮助用户分析模型性能。请按照官方文档开始使用。

升级说明#

已移除 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已移除。因此，请在升级前卸载您环境中的旧版 vLLM Ascend。
CANN 已升级至 8.3.RC2，PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装它们。
已停止支持 Python 3.9，以与 vLLM v0.12.0 保持一致。

已知问题#

DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下个版本中修复此问题。#4990
Hunyuan OCR 无法工作。我们将在下个版本中修复此问题。#4989 #4992
DeepSeek 3.2 无法与聊天模板配合使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。
在某些情况下，DeepSeek 3.2 无法在高并发下工作。我们将在下个版本中修复此问题。#4996
我们注意到 bf16/fp16 模型性能不佳，这主要是因为默认启用了 VLLM_ASCEND_ENABLE_NZ。请设置 VLLM_ASCEND_ENABLE_NZ=0 来禁用它。我们将在下个版本中添加自动检测机制。
推测解码方法 suffix 无法工作。我们将在下个版本中修复此问题。您可以通过拣选（pick）此提交来修复该问题：#5010

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑，我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照官方文档开始使用。

亮点#

torch-npu 已升级至 2.7.1.post1。请注意，该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中，请自行手动安装。
禁用了 NZ 权重加载器以加速稠密模型。请注意，这是一个临时解决方案。如果您发现性能变差，请告知我们。我们将持续改进。#4495
官方 Docker 镜像中现已安装 mooncake。您现在可以直接在容器中使用它。#4506

其它#

修复了 MoE 模型的 OOM 问题。#4367
修复了多模态模型在 DP>1 运行时出现的卡死问题。#4393
修复了 EPLB 的一些错误。#4416
修复了 mtp>1 + lm_head_tp>1 场景下的错误。#4360
修复了 vLLM serve 长时间运行时可能出现的精度问题。#4117
修复了 qwen2.5 vl 在高并发运行下的功能错误。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中，我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照官方文档开始使用。

亮点#

CANN 已升级至 8.3.RC2。#4332
Ngram 投机解码方法现已回归。#4092
通过更新默认捕获大小提升了 aclgraph 的性能。#4205

核心#

加快 vLLM 启动速度。#4099
支持 Kimi k2 量化版。#4190
修复了 qwen3-next 的一个 bug，现在运行更稳定。#4025

其它#

修复了全解码模式（full decode only mode）的一个问题。全图模式（Full graph mode）现在更稳定。#4106 #4282
修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。#3711
修复了 EPLB 功能的一些 bug。#4150 #4334
修复了多模态（vl）模型无法在 x86 机器上运行的问题。#4285
预填充解耦代理（prefill disaggregation proxy）支持 IPv6。请注意，mooncake 连接器尚不支持 IPv6，我们正在处理。#4242
增加了一项检查，以确保在量化场景下 EPLB 仅支持 w8a8 方法。#4315
增加了一项检查，以确保 FLASHCOMM 功能不与视觉语言（vl）模型一同使用。该功能将在 2025 年第四季度得到支持。#4222
容器中已安装音频所需的库。#4324

已知问题#

Ray + 专家并行（EP）暂时无法工作。如果您在 Ray 上运行 vLLM Ascend，请禁用专家并行。#4123
目前尚不支持 response_format 参数。我们将很快提供支持。#4175
CPU 绑定功能在多实例情况下（如单节点多个数据并行实例）无法使用。我们将在下一个版本中修复此问题。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考官方文档开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本，我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。

亮点#

CANN 已升级至 8.3.RC1。Torch-npu 已升级至 2.7.1。#3945 #3896
前缀缓存（PrefixCache）和分块预填充（Chunked Prefill）默认已启用。#3967
现已支持 W4A4 量化。#3427。官方教程请见 single_npu_qwen3_w4a4。

核心#

提升了 Qwen3 和 DeepSeek V3 系列模型的性能。
现已支持 Mooncake 分层连接器 #2602。教程请见 pd_disaggregation_mooncake_multi_node。
现已支持多 token 预测（MTP > 1）。#2708
[实验性] 现已支持图模式 FULL_DECODE_ONLY！FULL 模式将在未来几周内推出。#2128
现已支持池化模型（如 bge-m3）。#3171

其它#

重构了 MoE 模块，使其更清晰易懂，并在量化和非量化场景下均提升了性能。
重构了模型注册模块以方便维护。我们将在 2025 年第四季度移除该模块。#3004
Torchair 已被弃用。一旦 ACL Graph 的性能达到预期，我们将移除它，截止日期为 2026 年第一季度。
LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。
重构了线性模块，以支持 flashcomm 论文中的 flashcomm1 和 flashcomm2 特性。#3004 #3334

已知问题#

在长时间提供服务后，可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug，我们将很快升级并修复。
Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug，我们将很快修复。
在长序列输入的情况下，有时会出现无响应且 KV Cache 占用过高。这是调度器的一个 bug，我们正在修复中。
Qwen2-audio 默认无法工作，我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为一个合适的值，例如 0.8。
当启用专家并行运行 Qwen3-Next 时，请将 HCCL_BUFFSIZE 环境变量设置为合适的值，例如 1024。
在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照官方文档开始使用。

亮点#

现已支持 DeepSeek V3.2。#3270
现已支持 Qwen3-vl。#3103

核心#

DeepSeek 现在可以与 aclgraph 协同工作。#2707
MTP 现在可以与 aclgraph 协同工作。#2932
现已支持 EPLB。#2956
现已支持 Mooncake 存储 KV Cache 连接器。#2913
现已支持 CPU 卸载连接器。#1659

其他#

Qwen3-next 现已稳定。#3007
修复了 v0.10.2 中由 Qwen3-next 引入的大量 bug。#2964 #2781 #3070 #3113
LoRA 功能现已恢复。#3044
Eagle3 投机解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

新增对 Qwen3-Next 的支持。请注意，此版本暂不支持专家并行和 MTP 功能，我们将很快添加相关支持。请参考官方指南开始使用。#2917
为 aclgraph 增加了量化支持。#2841

核心#

Aclgraph 现在支持 Ray 后端。#2589
MTP 现在支持多 token（token > 1）场景。#2708
Qwen2.5 VL 现已支持量化。#2778
提升了启用异步调度器时的性能。#2783
修复了使用默认调度器时非 MLA 模型的性能回退问题。#2894

其他#

W8A8 量化的性能得到提升。#2275
MoE 模型的性能得到提升。#2689 #2842
修复了应用投机解码和 aclgraph 时出现的资源限制错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充阶段滑动窗口注意力的 bug。#2758
新增了 Qwen3 预填充-解码解耦的官方文档。#2751
环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已恢复生效。#2740
为 DeepSeek 的 oproj 新增了一项优化。设置 oproj_tensor_parallel_size 即可启用此功能。#2167
修复了设置 graph_batch_sizes 时，DeepSeek 与 torchair 协同工作不符合预期的问题。#2760
避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1 和 VLLM_ASCEND_ENABLE_FLASHCOMM=1 即可启用。#2779
通过预取功能提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 即可启用。#2816
通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
新增 warm_up_atb 步骤以加速推理。#2823
修复了 MoE 模型在 aclgraph 模式下的流错误。#2827

已知问题#

当在预填充和解码阶段使用不同的 TP 大小运行预填充-解码解耦时，服务器会挂起。该问题已通过 vLLM commit 修复，但未包含在 v0.10.2 中。您可以手动拉取此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个已知问题，我们正在处理。您可以根据并行配置将 max_model_len 和 gpu_memory_utilization 设置为合适的值，以避免内存溢出错误。
我们注意到，由于 KV Cache 的重构，LoRA 在此版本中无法工作。我们将尽快修复。2941
在使用 Ascend 调度器时，请勿同时启用分块预填充和前缀缓存，否则性能和精度将不理想或不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照官方文档开始使用。

亮点#

通过招商银行贡献的自定义内核，LoRA 性能得到大幅提升。#2325
支持 Mooncake TransferEngine 用于 KV Cache 注册，并实现了 pull_blocks 样式的解耦预填充。#1568
现在支持将自定义算子捕获到 aclgraph 中。#2113

核心#

新增了 MLP 张量并行以提升性能，但请注意这会增加内存使用。#2120
openEuler 已升级至 24.03 版本。#2631
新增了自定义 lmhead 张量并行，以降低内存消耗并提升 TPOT 性能。#2309
Qwen3 MoE 和 Qwen2.5 现在支持 torchair 图模式。#2403
在 AscendScheduler 中支持滑动窗口注意力，从而修复了 Gemma3 的精度问题。#2528

其他#

Bug 修复：
- 更新了图捕获大小的计算方式，在一定程度上缓解了某些场景下 NPU 流不足的问题。#2511
- 修复了相关 bug 并重构了缓存掩码生成逻辑。#2442
- 修复了 NZ 格式在量化场景下无法工作的问题。#2549
- 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列模型精度问题。#2457
- 修复了 RoPE 维度与 Head 维度不一致的模型（如 GLM4.5）的精度问题。#2601
通过大量 PR 提升了性能：
- 移除了 torch.cat 并替换为 List[0]。#2153
- 将 GMM 的格式转换为 NZ。#2474
- 优化了并行策略以减少通信开销。#2198
- 优化了贪婪搜索（greedy）场景下的拒绝采样器（reject sampler）。#2137
通过一批重构 PR 增强了代码架构：
- 重构了 MLA 相关代码。#2465
- 重构了 torchair 的 fused_moe 部分。#2438
- 重构了与 allgather/mc2 相关的 fused_experts 部分。#2369
- 重构了 torchair 的模型运行器（model runner）。#2208
- 重构了 CI（持续集成）流程。#2276
参数变更：
- 在 additional_config 中增加了 lmhead_tensor_parallel_size，设置此项可启用 lmhead 张量并行。#2309
- 移除了若干不再使用的环境变量：HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT 以及 LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448
- 环境变量 VLLM_LLMDD_RPC_PORT 现已更名为 VLLM_ASCEND_LLMDD_RPC_PORT。#2450
- 增加了环境变量 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE，用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120
- 从环境变量中移除了 MOE_ALL2ALL_BUFFER 和 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612
- 在 additional_config 中增加了 enable_prefetch，用于控制是否启用权重预取。#2465
- 在 additional_config.torchair_graph_config 中增加了 mode 参数。当对 torchair 使用 reduce-overhead 模式时，需要设置此模式。#2461
- additional_config 中的 enable_shared_expert_dp 现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457

已知问题#

滑动窗口注意力（Sliding window attention）目前不支持分块预填充（chunked prefill），因此只能配合 AscendScheduler 运行。#2729
在启用多流（MultiStream）时创建 mc2_mask 存在一个 bug，将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中，我们针对大规模专家并行（EP）场景增加了许多增强功能。建议参考官方指南。

请注意，此发布说明将列出自上一个正式版本（v0.7.3）以来的所有重要变更。

亮点#

已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考多节点教程和大规模专家并行。
Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程。
V1 引擎现已支持解耦预填充（Disaggregated Prefilling）。请参考大规模专家并行教程。
支持自动前缀缓存（Automatic prefix caching）和分块预填充（chunked prefill）特性。
投机解码（Speculative decoding）特性现已支持 Ngram 和 MTP 方法。
现已支持 MoE 和密集（dense）模型的 w4a8 量化。请参考量化指南。
V1 引擎现已支持睡眠模式（Sleep Mode）。请参考睡眠模式教程。
增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。

注意#

以下说明特别供从上一个正式版本（v0.7.3）升级时参考：

从此版本起不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。
此版本不再需要 Mindie Turbo，且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要，我们将来会考虑重新添加支持。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。

核心#

为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。
结构化输出（Structured output）功能现在可以在 V1 引擎上运行。
增加了一批自定义算子以提升性能。

变更#

Qwen3-moe 模型现已支持 EPLB。#2000
修复了 MTP 在预填充-解码解耦场景下表现不佳的问题。#2610 #2554 #2531
修复了若干 bug 以确保预填充-解码解耦能够正常工作。#2538 #2509 #2502
修复了 torchair 模式下使用 shutil.rmtree 导致的“文件未找到”错误。#2506

已知问题#

运行 MoE 模型时，Aclgraph 模式仅支持张量并行（TP）。此版本暂不支持 DP/EP 运行该模式。
此版本的 V1 引擎暂不支持流水线并行（Pipeline parallelism）。
如果在 eager 模式下使用 w4a8 量化，请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免显存溢出（OOM）。
使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654
我们注意到在运行预填充-解码解耦时仍存在一些问题，例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照官方文档开始使用。

核心#

MTP 现在支持 V1 调度器。#2371
增加了 LMhead 张量并行（TP）通信组。#1956
修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478
修复了由过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask 索引越界（IndexError）错误。#2314
移除了 chunked_prefill_for_mla 参数。#2177
修复了 bug 并重构了缓存掩码生成逻辑。#2326
修复了关于 Ascend 调度器的配置检查逻辑。#2327
在解耦预填充部署场景下，取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368
修复了 Ray 分布式后端失效的问题。#2306
修复了 Ascend 调度器中错误的请求块长度。#2394
修复了 RoPE 中的头文件包含问题。#2398
修复了 MTP 的配置 bug。#2412
修正了错误信息并适配了 attn_metadata 的重构。#2402
修复了因配置不匹配及 .kv_cache_bytes 文件缺失导致的 torchair 运行错误。#2312
将 with_prefill 阶段的 allreduce 从 CPU 迁移至 NPU。#2230

文档#

增加了 DeepSeek 大规模专家并行（EP）的文档。#2339

已知问题#

修复了 A2 (910B1) 上开启 "full_cuda_graph": True 时 test_aclgraph.py 失败的问题。#2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照官方文档开始使用。在此版本中，V0 引擎已被完全移除。

亮点#

解耦预填充（Disaggregate prefill）现在已支持 V1 引擎。您可以按照此教程在 DeepSeek 模型上进行尝试。#950
Dense 和 MoE 模型现在已支持 W4A8 量化方法。#2060 #2172

核心#

Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724。#1562。CANN 已升级至 8.2.RC1。#1653。请不要忘记在您的环境中更新它们，或使用最新的镜像。
vLLM Ascend 现在支持 Atlas 800I A3，且从该版本起将发布适用于 A3 的镜像。#1582
vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此教程进行尝试。#2162
V1 引擎现已支持流水线并行（Pipeline Parallelism）。#1800
前缀缓存（Prefix cache）功能现在可与 Ascend 调度器协同工作。#1446
Torchair 图模式（graph mode）现在支持张量并行度（tp）大于 4 的场景。#1508
MTP 现在支持 torchair 图模式。#2145

其他#

Bug 修复：
- 修复了 Qwen2-audio 等多模态模型在 Aclgraph 模式下的功能问题。#1803
- 修复了外部启动场景下进程组创建错误的问题。#1681
- 修复了引导式解码（guided decoding）的功能问题。#2022
- 修复了数据并行（DP）场景下常见 MoE 模型的精度问题。#1856
通过大量 PR 提升了性能：
- 将 sin/cos 进行缓存，而非在每一层都重新计算。#1890
- 改进了共享专家（shared expert）的多流并行性。#1891
- 实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1 可启用此特性。#1926
- 通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195
- 在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806
- 使用组播（multicast）避免将解码请求填充（padding）至预填充大小。#1555
- 提升了 LoRA 的性能。#1884
通过一批重构 PR 增强了代码架构：
- 重构了 Torchair 模型运行器（model runner）。#2205
- 重构了 forward_context 和 model_runner_v1。#1979
- 重构了 AscendMetaData 的注释。#1967
- 重构了 torchair 工具类（utils）。#1892
- 重构了 torchair 工作进程（worker）。#1885
- 通过注册激活自定义算子代替重写 forward_oot。#1841
参数变更：
- additional_config 中的 expert_tensor_parallel_size 现已移除，现在的 EP（专家并行）和 TP（张量并行）逻辑与 vLLM 官方保持一致。#1681
- 增加了环境变量 VLLM_ASCEND_MLA_PA，用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。
- 增加了环境变量 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后，在张量并行模式下将使用 MatmulAllReduce 融合内核。该特性支持 A2 硬件，并能在 eager 模式下获得更好的性能。
- 增加了环境变量 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ，用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架，便于后续扩展。
在遵循 RFC #1298 的一批 PR 之后，单元测试（UT）覆盖率达到了 76.34%。
序列并行（Sequence Parallelism）现在支持 Qwen3 MoE 模型。#2209
现已增加中文在线文档。#1870

已知问题#

目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流（stream）数量不足。#2229
在启用多流（multistream）的情况下，W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232
在 Qwen3 MoE 中，序列并行（SP）目前无法合并入 Aclgraph 图中。#2246
MTP 目前不支持 V1 调度器，计划在第三季度（Q3）修复。#2254
当在 DP > 1 的情况下运行 MTP 时，由于 vLLM 的一些已知问题，需要禁用指标日志记录器（metrics logger）。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照官方文档开始使用。

亮点#

MoE 和 Dense 模型现已支持 w4a8 量化：#1320 #1910 #1275 #1480
在 #1943 中增加了对动态 EPLB 的支持。
V1 引擎现已支持解耦预填充（Disaggregated Prefilling）并进行了改进。持续对解耦预填充特性进行开发和稳定化处理，包括单机环境下的性能提升和 bug 修复：#1953 #1612 #1361 #1746 #1552 #1801 #2083 #1989

模型改进#

DeepSeek DBO 支持与改进：#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复：#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 MoE 在图模式与数据并行（DP）方面的支持改进与错误修复：#1940 #2006 #1832
Qwen3 在 rmsnorm/repo/mlp 算子方面的性能改进：#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 在分块预填充/图模式/多流方面的改进与错误修复：#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
通过改进 mrope/padding 机制提升 Qwen2.5 VL 性能：#1261 #1705 #1929 #2007
Ray：修复使用 Ray 时的设备错误，添加 initialize_cache 并改进警告信息：#1234 #1501

图模式改进#

在 #1269 中修复了 DeepSeek 与 mc2 配合使用的问题。
在 #1332 中修复了 DeepSeek V3/R1 模型在使用 TorchAir 图模式进行长序列预测时的精度问题。
在 #1570 中修复了 torchair_graph_batch_sizes 错误。
在 #1404 中为 TorchAir 图模式启用了 tp <= 4 的限制。
修复 RoPE 精度错误 #1887。
在 FusedMoE 中支持共享专家的多流处理 #997。
在 TorchAir 图模式的解码过程中启用 kvcache_nz #1098。
修复 TorchAir 下的分块预填充场景，解决 #1378 中的 UnboundLocalError: local variable 'decode_hs_or_q_c' 问题。
在 #1561 中提升了 w8a8 动态量化下共享专家的多流性能。
修复设置多流时的 MoE 错误 #1882。
在 EP 场景下将图批次大小向上取整至 TP 大小的倍数 #1610
修复启用 DP 时的 TorchAir 错误 #1727
为 torchair_graph_config 添加额外检查 #1675
修复 TorchAir + 分块预填充场景下的 RoPE 错误 #1693
修复 chunked_prefill 为 true 时的 torchair_graph 错误 #1748
改进预填充优化以支持 TorchAir 图模式 #2090
修复 DP 场景下的 rank 设置问题 #1247
重置所有未使用的位置以防止越界，从而解决 GatherV3 错误 #1397
移除 ModelRunner 中重复的多模态代码 #1393
修复块表形状以解决精度问题 #1297
在受限场景下实现初步的全图模式 #1503
为提升性能，在全图模式中恢复分页注意力内核 #1677
修复极端 --gpu-memory-utilization 设置下的 DeepSeek OOM 问题 #1829
在启用 TorchAir 时关闭 aclgraph #2154

算子改进#

新增自定义 AscendC 内核 vocabparallelembedding #796
修复了 RoPE sin/cos 缓存错误 #1267
重构了 AscendFusedMoE (#1229) #1264
在采样器中使用了融合算子 npu_top_k_top_p #1920

核心#

将 CANN 升级至 8.2.rc1 #2036
将 torch-npu 升级至 2.5.1.post1 #2135
将 Python 升级至 3.11 #2136
禁用了 mindie_turbo 中的量化 #1749
修复了 V0 投机解码 #1323
仅在使用 V0 投机解码时直接启用 ACL_OP_INIT_MODE=1 #1271
重构了 forward_context 和 model_runner_v1 #1422
修复了采样参数 #1423
增加了启用权重 NZ 布局的开关，并为 GMM 启用了 NZ #1409
修复了 ascend_forward_context 中的错误 #1449 #1554 #1598
通过处理 PrefillCacheHit 状态修复了前缀缓存精度错误 #1492
修复了权重加载错误并增加了新的端到端测试用例 #1651
优化了 DeepSeek 中与 RoPE 相关的索引选择次数 #1614
增加了 mc2 掩码 #1642
修复了静态 EPLB 的 log2phy 条件并改进了单元测试 #1667 #1896 #2003
为预填充增加了分块 mc2 #1703
修复了 mc2 算子的 GroupCoordinator 错误 #1711
修复了无法识别实际量化类型的问题 #1721
修复了 DeepSeek 在 tp_size == 1 时的错误 #1755
增加了预填充节点对无延迟块的支持 #1691
针对未量化的 RL 训练进行了 MoE alltoallv 通信优化，并使 alltoallv 支持 DPO #1547
适配了 dispatchV2 接口 #1822
修复了解耦预填充在长输出时的挂起问题 #1807
修复了 V0 引擎下的 flashcomm_v1 问题 #1859
修复了某些情况下 ep_group 不等于 word_size 的问题 #1862
修复了 wheel 包 glibc 版本不兼容的问题 #1808
修复了 mc2 进程组以解决 self.cpu_group 为 None 的问题 #1831
将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查 #1904
为 MoE 应用了 npu_moe_gating_top_k_softmax 以提升性能 #1902
修复了 V0 引擎下 path_decorator 的 bug #1919
避免了在解耦预填充场景下执行 CPU all_reduce #1644
为解码阶段的 MoE 增加了 super kernel #1916
[预填充性能] 并行策略优化（显存换速度的权衡） #1802
移除了 shared_experts.down_proj 中不必要的 reduce_results 访问 #2016
通过向量化优化了 greedy reject 采样器 #2002
实现了在单机上运行多个 P 节点（Prefill）和 D 节点（Decode） #1936
修复了 DeepSeek 模型在启用 tp > 1 和 multistream_moe 时，共享专家与路由专家之间的形状冲突问题 #2075
增加了 CPU 绑定支持 #2031
在 #2129 中增加了 with_prefill CPU allreduce 以处理 D 节点的重计算。
在 #2038 中增加了 D2H 和 initRoutingQuantV2 以提升预填充性能。

文档#

提供了执行时长分析（duration profiling）的端到端指南。#1113
为 CANN 软件包下载链接添加了 Referer 请求头。#1192
增加了重新安装说明文档。#1370
更新了解耦预填充（Disaggregate prefill）的 README。#1379
针对 KV Cache 注册方式实现了解耦预填充。#1296
在 #1965 中修复了 examples/disaggregate_prefill_v1/README.md 中的错误和不规范之处。

已知问题#

在开启 full_cuda_graph 启用时，某些特定硬件类型尚不支持全图模式。#2182
Qwen3 MoE 在启用 EP 时，由于 bincount 错误导致带 TP 的 aclgraph 模式失败。#2226
正如 v0.9.1rc1 发布说明中所提到的，此版本将不包含对 Atlas 300I 系列的支持。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本次发布起，V1 引擎将默认启用，不再需要设置 VLLM_USE_V1=1。此外，该版本也是最后一个支持 V0 引擎的版本，V0 相关代码将在未来被清理。

亮点#

Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359。
Atlas 300I 系列的性能已经提升。 #1591
aclgraph 模式现在可以与 Moe 模型一起使用。目前，仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

Ascend PyTorch 适配器（torch_npu）已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347
GatherV3 错误已在 aclgraph 模式下修复。#1416
W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560
修复了使用并行参数部署模型时的准确性问题。#1678
预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

官方文档已更新，以提升阅读体验。例如，增加了更多部署教程，更新了用户/开发者文档。更多指南即将推出。
修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331
新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为 0。#1335
新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION，用于提升 topk-topp 采样的性能。该变量默认值为 0，未来我们会考虑默认启用此选项。#1732
已修复了一批与数据并行（Data Parallelism）相关的 bug：#1273 #1322 #1275 #1478
DeepSeek 的性能已得到提升：#1194 #1395 #1380
Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483

已知问题#

流水线并行（Pipeline parallel）无法与 Ray 和图模式共同工作：vllm-project/vllm-ascend#1751 vllm-project/vllm-ascend#1754

新贡献者#

@xleoken 在 vllm-project/vllm-ascend#1357 中做出了首次贡献
@lyj-jjj 在 vllm-project/vllm-ascend#1335 中做出了首次贡献
@sharonyunyun 在 vllm-project/vllm-ascend#1194 中做出了首次贡献
@Pr0Wh1teGivee 在 vllm-project/vllm-ascend#1308 中做出了首次贡献
@leo-pony 在 vllm-project/vllm-ascend#1374 中做出了首次贡献
@zeshengzong 在 vllm-project/vllm-ascend#1452 中做出了首次贡献
@GDzhu01 在 vllm-project/vllm-ascend#1477 中做出了首次贡献
@Agonixiaoxiao 在 vllm-project/vllm-ascend#1531 中做出了首次贡献
@zhanghw0354 在 vllm-project/vllm-ascend#1476 中做出了首次贡献
@farawayboat 在 vllm-project/vllm-ascend#1591 中做出了首次贡献
@ZhengWG 在 vllm-project/vllm-ascend#1196 中做出了首次贡献
@wm901115nwpu 在 vllm-project/vllm-ascend#1654 中做出了首次贡献

完整更新日志: vllm-project/vllm-ascend

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

实验性功能#

本版本对 Atlas 300I 系列提供了实验性支持（已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试）。#1333
支持 EAGLE-3 进行推测式解码。#1032

经过慎重考虑，考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代，上述功能将不会包含在 v0.9.1-dev 分支（v0.9.1 正式版）中。我们将在 0.9.2rc1 及更高版本中对此进行改进。

核心#

Ascend PyTorch 适配器（torch_npu）已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235
支持 Atlas 300I 系列的容器镜像。您可以从 quay.io 获取。
修复了按 token 填充的机制，以使多卡图模式正常工作。#1300
将 vLLM 升级到 0.9.1 #1165

其他改进#

为 MLA 初步支持分块预填充（Chunked Prefill）。#1172
新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
提升了 DeepSeek 在使用 TorchAir 图模式时的性能。#1098, #1131
支持在 AscendScheduler 中使用推测式解码功能。#943
提升了 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796
修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884
DeepSeek 现在可以与 MC2（计算通信融合）正常配合工作。#1268
修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186
提升了启用 DBO 时 DeepSeek 的性能。#997, #1135
重构 AscendFusedMoE #1229
新增初始用户故事页面（包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack）。#1224
新增单元测试框架 #1201

已知问题#

在某些情况下，启用 aclgraph 时 vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在处理此问题，并将在下一个版本中修复。#1038
在未启用分块预填充的情况下，前缀缓存功能无法与 Ascend 调度器配合使用。此问题将在下一个版本中修复。#1350

完整更新日志#

vllm-project/vllm-ascend

新贡献者#

@farawayboat 在 vllm-project/vllm-ascend#1333 中做出了首次贡献
@yzim 在 vllm-project/vllm-ascend#1159 中做出了首次贡献
@chenwaner 在 vllm-project/vllm-ascend#1098 中做出了首次贡献
@wangyanhui-cmss 在 vllm-project/vllm-ascend#1184 中做出了首次贡献
@songshanhu07 在 vllm-project/vllm-ascend#1186 中做出了首次贡献
@yuancaoyaoHW 在 vllm-project/vllm-ascend#1032 中做出了首次贡献

完整更新日志: vllm-project/vllm-ascend

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本，而不是 v0.9.0rc1。

亮点#

修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始，推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。

亮点#

DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789
Qwen 系列模型现在支持图模式，且在 V1 引擎中默认启用。请注意，在本次发布中，仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中提升其稳定性并使其更通用。如果您遇到任何问题，请随时在 GitHub 上提交 issue，并在初始化模型时通过设置 enforce_eager=True 临时回退到 eager 模式。

核心#

多步调度器（multi-step scheduler）的性能已得到提升。感谢招商银行的贡献。#814
V1 引擎现在支持 LoRA、多 LoRA（Multi-LoRA）以及动态服务。感谢招商银行的贡献。#893
前缀缓存（Prefix cache）和分块预填充（chunked prefill）功能现已可用。#782 #844
推测解码（Spec decode）和 MTP 功能现在已支持 V1 引擎。#874 #890
数据并行（DP）功能现在支持 DeepSeek 模型。#1012
输入嵌入（Input embedding）特性现在已支持 V0 引擎。#916
休眠模式（Sleep mode）功能现在已支持 V1 引擎。#1084

模型#

Qwen2.5 VL 现在支持 V1 引擎。#736
Llama4 模型现在已支持。#740
新增了一种名为双批次重叠（dual-batch overlap, DBO）的 DeepSeek 模型支持。请设置 VLLM_ASCEND_ENABLE_DBO=1 来使用它。#941

其他#

在线服务现已支持 Ascend 量化。#877
修复了一批关于图模式（graph mode）和 MoE 模型的 bug：#773 #771 #774 #816 #817 #819 #912 #897 #961 #958 #913 #905
已合并一批性能优化 PR：#784 #803 #966 #839 #970 #947 #987 #1085
从本版本起，将同时发布二进制 wheel 包。#775
贡献者文档站点已添加

已知问题#

在某些情况下，启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理此问题，并将在下一版本中修复。
多节点数据并行（Data-Parallel）在此版本中无法使用。这是 vLLM 中已知的问题，已在主分支中修复。#18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个修订版本（post release）。请按照官方文档开始使用。本次更新包含以下更改：

亮点#

现已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已通过充分测试，欢迎试用。推荐使用 MindIE Turbo 以提升 Qwen3 的性能。#903 #915
新增了性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能，包括操作系统配置、库优化、部署指南等。#878 文档链接

漏洞修复#

Qwen2.5-VL 现已支持 RLHF 场景。#928
用户现在可以直接通过在线权重启动模型，例如直接从 HuggingFace 或 ModelScope 加载。#858 #918
已清理无意义的日志信息 UserWorkspaceSize0。#911
Failed to import vllm_ascend_C 的日志级别已由 error 更改为 warning。#956
DeepSeek MLA 现已在 V1 引擎中支持分块预填充（Chunked Prefill）。请注意，0.7.3 中的 V1 引擎仍处于实验阶段，仅供测试使用。#849 #936

文档#

基准测试文档已针对 Qwen2.5 和 Qwen2.5-VL 完成更新。#792
添加了说明，明确只有 modelscope<1.23.0 版本能与 0.7.3 兼容。#954

v0.7.3 - 2025.05.08#

🎉 你好，世界！

我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要，我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。

亮点#

本次发布包含了之前所有候选版本中引入的功能（v0.7.1rc1、v0.7.3rc1、v0.7.3rc2）。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充（Chunked Prefill）和自动前缀缓存（Automatic Prefix Caching）功能。您现在可以启用它们了。
将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu，2.5.1 版本的 torch-npu 将被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 中，提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708

核心#

现已支持 LoRA、多 LoRA 及动态服务（Dynamic Serving）。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700

模型#

提升了 Qwen2 VL 和 Qwen2.5 VL 的性能。#702
优化了 apply_penalties 和 topKtopP 算子的性能。#525

其他#

修复了可能导致 CPU 内存泄漏的问题。#691 #712
新增了环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到 SOC 检测错误，请将 SOC_VERSION 设置为合适的值。#606
支持 openEuler 容器镜像，标签为 v0.7.3-openeuler。#665
前缀缓存功能现已在 V1 引擎上可用。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎，详情请查看特性支持矩阵。

亮点#

将 CANN 升级至 8.1.RC1，以支持在启用 V1 引擎时的分块预填充和自动前缀缓存（--enable_prefix_caching）。#747
优化了 Qwen2 VL 和 Qwen 2.5 VL。#701
提升了 DeepSeek V3 的 Eager 模式和图模式性能，您现在可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。 #598 #719

核心#

将 vLLM 升级到 0.8.5.post1。#715
修复了在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题。#682
适配了由 modelslim 生成的新量化模型。#719
初步支持基于 llm_datadist 的 P2P 存算分离预填充（Disaggregated Prefill）。#694
使用 /vllm-workspace 作为代码路径，并在容器镜像中包含 .git 目录，以修复在 /workspace 下启动 vLLM 时的问题。#726
优化了 NPU 内存占用，使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728
修复了 setup.py 中 PYTHON_INCLUDE_PATH 的拼写错误。#762

其他#

添加了 Qwen3-0.6B 测试。#717
添加了每晚持续集成（Nightly CI）。#668
添加了精度测试报告。#542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能，如 W8A8 量化以及专家并行（EP）/数据并行（DP）支持。我们将在下一个版本中进一步提升这些功能的稳定性。

亮点#

现已支持 Qwen3 和 Qwen3MOE。请参考官方文档运行快速示例。#709
现已支持 Ascend W8A8 量化方法。详情请参考官方文档示例。欢迎提供任何反馈。#580
DeepSeek V3/R1 现已支持数据并行（DP）、张量并行（TP）和多令牌预测（MTP）。请注意，此功能仍处于实验阶段。如遇任何问题，请告知我们。#429 #585 #626 #636 #671

核心#

V1 引擎现已支持 ACLGraph 特性。由于该特性依赖 CANN 8.1 版本，目前默认禁用。我们将在下一个版本中默认启用此特性。#426
已将 PyTorch 升级至 2.5.1。vLLM Ascend 不再依赖 torch-npu 的开发版本。用户现在无需手动安装 torch-npu，2.5.1 版本的 torch-npu 将自动安装。#661

其他#

MiniCPM 模型现已支持。#645
现已支持带有 v0.8.4-openeuler 标签的 openEuler 容器镜像，并且在 openEuler 操作系统上默认启用自定义算子构建。#689
修复了导致 LoRA 无法运行的 ModuleNotFoundError 错误。#600
新增了“使用 EvalScope 进行评估”的文档。#611
新增 VLLM_VERSION 环境变量，使 vLLM 版本可配置，便于开发者在本地手动修改 vLLM 代码后设置正确的版本号。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起，vllm-ascend 将跟随 vLLM 的最新版本，每两周发布一次。例如，若 vLLM 在未来两周内发布 v0.8.5，则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策。

亮点#

本版本包含对 vLLM V1 引擎的实验性支持。更多详情请访问官方指南。默认情况下，若 V1 无法运行，vLLM 会自动回退到 V0；若需强制使用 V1，请设置环境变量 VLLM_USE_V1=1。
现已支持 LoRA、多 LoRA（Multi-LoRA）及动态服务（Dynamic Serving）。性能将在下个版本优化。用法详见官方文档。感谢招商银行的贡献。#521.
支持休眠模式（Sleep Mode）。目前仅支持 V0 引擎，V1 引擎的支持即将推出。#513

核心#

为 V1 引擎新增了 Ascend 调度器，该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543
支持分离式预填充（Disaggregated Prefill）。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式，一旦 vLLM 完成支持，vllm-ascend 将同步适配。使用方法请参考官方指南。#432
推测解码（Speculative Decoding）功能现已可用。目前仅支持 V0 引擎，V1 引擎支持即将推出。#500
结构化输出（Structured Output）功能现已支持 V1 引擎。目前仅支持 xgrammar 后端，使用 guidance 后端可能会报错。#555

其他#

新增了通信器 pyhccl，用于直接调用 CANN HCCL 库而非通过 torch.distribute。更多用法将在下个版本加入。#503
默认启用自定义算子构建。从源码编译 vllm-ascend 前请确保已安装 gcc、cmake 等包。如无需编译算子，可设置环境变量 COMPILE_CUSTOM_KERNELS=0。#466
自定义算子 rotary embedding 现已默认启用以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。

容器快速入门：https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南：https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html

亮点#

新增 Ascend 自定义算子框架，开发者现在可以使用 AscendC 编写自定义算子。已添加示例算子 rotary_embedding，更多教程即将推出。默认安装时不编译自定义算子，可设置 COMPILE_CUSTOM_KERNELS=1 启用。#371
本版本提供了 V1 引擎的基础支持，完整支持将在 0.8.X 版本完成。若您遇到任何问题或有任何 V1 引擎的需求，请在此问题中告知我们。#376
前缀缓存功能现已可用。您可以通过设置 enable_prefix_caching=True 启用它。#282

核心#

将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出 !!! 的问题。#406

模型#

通过优化 Patch Embedding (Conv3D)，提升了 Qwen2-VL 的性能。#398

其他#

修复了一个错误以确保多步调度器功能正常工作。#349
修复了一个错误以确保前缀缓存功能在正确的精度下工作。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好，世界！这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。

容器快速入门：https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南：https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html

亮点#

DeepSeek V3/R1 现已能够良好运行。请参阅官方指南开始使用！#242
支持推测解码功能。#252
支持多步调度器功能。#300

核心#

将 torch_npu 版本升级至 dev20250308.3 以提升 _exponential 的精度。
新增对池化模型的初步支持。基于 BERT 的模型，例如 BAAI/bge-base-en-v1.5 和 BAAI/bge-reranker-v2-m3 现已可用。#229

模型#

提升了 Qwen2-VL 的性能。#241
现已支持 MiniCPM 模型。#164

其他#

为 DeepSeek V3/R1 提供多令牌预测（MTP）支持。#236
【文档】新增了更多模型教程，包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档。
在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决：vllm-project/vllm#13807

已知问题#

在某些情况下，尤其是当输入/输出非常长时，输出精度可能不正确。我们正在处理此问题，将在下一个版本中修复。
改进并减少了模型输出中的乱码。但如果您仍然遇到此问题，请尝试更改生成配置值，例如 temperature，然后重试。下方还有一个已知问题。欢迎提供任何反馈。#277

v0.7.1rc1 - 2025.02.19#

🎉 你好，世界！

我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。

vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件，用于在 Ascend NPU 上运行 vLLM。通过此版本，用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能与改进。

请遵循官方文档开始您的旅程。请注意，这是一个候选发布版本，可能存在一些错误或问题。我们感谢您的反馈和建议，请通过此问题提交。

亮点#

在 vLLM 上提供对 Ascend NPU 的初步支持。#3
现已支持 DeepSeek 模型。#88 #68
同时支持 Qwen、Llama 系列及其他流行模型，您可以在 supported_models 中查看更多详情。

核心#

新增了 Ascend 量化配置选项，具体实现即将推出。#7 #73
添加了 silu_and_mul 和 rope 算子，并将混合算子集成到注意力层中。#18

其他#

【CI】启用 Ascend CI 以主动监控并提升 vLLM 在 Ascend 上的质量。#3
【Docker】新增 vllm-ascend 容器镜像。#64
【文档】新增了在线文档。#55

已知问题#

本版本依赖于一个尚未正式发布的 torch_npu 版本，该版本已预装在官方容器镜像中。若您在非容器环境下运行，请手动安装。
运行 vllm-ascend 时可能会出现类似 No platform detected, vLLM is running on UnspecifiedPlatform 或 Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'") 的日志。这实际上不影响任何功能与性能，您可以忽略它。此问题已在此 PR 中修复，并将很快包含在 v0.7.3 版本中。
运行 vllm-ascend 时可能会出现类似 # CPU blocks: 35064, # CPU blocks: 2730 的日志，其本应显示为 # NPU blocks:。这实际上不影响任何功能与性能，您可以忽略它。此问题已在此 PR 中修复，并将很快包含在 v0.7.3 版本中。

版本说明

目录

版本说明#

v0.20.2rc1 - 2026.06.03#

亮点#

功能#

硬件与算子支持#

性能#

Stability and Bug Fixes#

依赖项#

Breaking Changes and Migration Notes#

文档#

已知问题#

v0.18.0 - 2026.04.30#

亮点#

功能#

硬件与算子支持#

性能#

依赖项#

弃用与重大变更#

文档#

其他#

已知问题#

v0.19.1rc1 - 2026.04.30#

亮点#

功能#

硬件与算子支持#

性能#

依赖项#

文档#

其他#

已知问题#

v0.18.0rc1 - 2026年04月01日#

亮点#

功能#

性能#

文档#

其他#

已知问题#

v0.17.0rc1 - 2026年03月15日#

亮点#

功能#

性能#

文档#

其他#

已知问题#

v0.16.0rc1 - 2026年03月09日#

亮点#

功能#

硬件与算子支持#

性能#

依赖项#

弃用与重大变更#

文档#

其他#

已知问题#

v0.15.0rc1 - 2026.02.27#

亮点#

功能#

硬件与算子支持#

性能#

依赖项#

弃用与重大变更#

文档#

其他#

v0.13.0 - 2026年02月06日#

亮点#

功能#

硬件与算子支持#

性能#

依赖项#

弃用与重大变更#

文档#

其他#

已知问题#

v0.14.0rc1 - 2026年1月26日#

亮点#

功能#

性能#

其他#