版本说明

目录

版本说明#

v0.20.2rc1 - 2026.06.03#

We're excited to announce the release of v0.20.2rc1 for vLLM Ascend. This is the first release candidate for the v0.20.2 release line. Please follow the official doc to get started.

亮点#

  • DeepSeek V4 Support: Added end-to-end support for DeepSeek V4, including the model architecture, DSA attention backend, KV cache management, distributed inference, tool-call parser, MTP support, KV Pool adaptation, and custom operator enablement. #9270 #9385 #9228

  • A5 and XLite Quantization Expansion: Added MXFP4 flatquant with row parallelism for Ascend A5 and expanded XLite support to GLM-4.7 W8A8 quantization. #9391 #9415

功能#

  • Added Flash Attention 3 support for training-inference consistency. The backend is ready in vLLM Ascend and will become directly usable once the FA3 package is publicly available. #9060

  • Added DeepSeek PCP/DCP adaptation to improve support for disaggregated deployments. #9058

  • Added a dedicated additional_config.enable_dsa_cp switch to decouple DSA-CP from FC1. DSA-CP now requires both FC1 and DSA-CP to be explicitly enabled, allowing FC1 to stay enabled while DSA-CP is disabled when needed. #9878

  • Added merged graph support for DFlash workloads. #9074

  • Added LoRA support for Qwen3.5 dense models. #9023

  • Added KV pool adaptation for DeepSeek V4 and separated MTP-layer KV cache sharding for DeepSeek V4 speculative decoding. #9385 #9367

硬件与算子支持#

  • Added DeepSeek V4 custom operators required for the new model path, registered the operators for Ascend 910B, and switched the DeepSeek V4 hc_pre path to a fused operator. #9228 #9339 #9396

  • Enabled MXFP4 flatquant and row parallel support on Ascend A5. #9391

  • Enabled MC2 dispatch and combine support for MXFP4/MXFP8 quantization on Ascend A5. #9365 #9328

  • Improved 310P support by optimizing fused operators for Qwen3.5 Dense ACLGraph and simplifying the 310P RMSNormGated path. #9104 #9489

性能#

  • Added DeepSeek V4 DSA multistream overlap optimizations across compressor, indexer-select, CV parallel, and pure-prefill compute-communication overlap paths. #9450 #9441 #9433 #9504

  • Reused DSA topk_indices across decode steps with IndexCache to reduce repeated DeepSeek V4 index computation. #9390

  • Fixed the missing enablement for cv_indexer_qkv_prepare multistream parallelism in the new overlap path. #9530

  • Reduced host-device synchronization overhead by removing the sync point in PIECEWISE mode. #9025

  • Optimized shared expert overlap timing in FusedMoE. #9413

  • [Experimental] Added reduce sampling with enable_reduce_sample to lower Tensor Parallel communication overhead in distributed greedy, top-k/top-p, and rejection sampling paths. #8308

Stability and Bug Fixes#

  • Fixed DeepSeek V4 MTP, serial inference, FlashComm, A2 tensor-output all-reduce, and P/D disaggregation KV cache edge cases. #9456 #9487 #9488 #9389 #9500

  • Fixed DeepSeek V4 hc_pre behavior and added a 4-card E2E regression test. #9452

依赖项#

  • Upgraded the matched upstream vLLM baseline to v0.20.2. #9270

  • Upgraded CANN to 9.0.0 and triton-ascend to 3.2.1. #9085

  • Upgraded PyTorch and torch-npu to 2.10.0. #9128

Breaking Changes and Migration Notes#

  • Migrated a set of runtime options from environment variables to AscendConfig, including the FC1/FlashComm1 switch from VLLM_ASCEND_ENABLE_FLASHCOMM1 to additional_config.enable_flashcomm1. Please review configuration code and deployment manifests when upgrading. #9064

  • Disabled SwiGLU clamp by default, which may slightly change behavior for workloads that previously relied on the old default. #9438

文档#

  • Refreshed deployment and feature documentation for the current main branch release line. #9309 #8968

  • Added documentation for the enable_dsa_cp additional configuration option for DeepSeek V3.2 and GLM5. #9910

已知问题#

  • GLM5/GLM5.1 W4A8 deployments have known issues in some advanced configurations. #9395

  • Qwen3.6-35B-A3B may shut down when MTP/speculative decoding is enabled, with numAcceptedTokens[0]=4 exceeds varlen segment length=3 reported during shape/dtype processing. #9956

  • GLM-5.1 can hang on the P node in 200K long-sequence 1P1D agent workloads after long-running service, with MoeDistributeDispatchV2/aclnnMoeDistributeDispatchV4 reporting an AICore timeout. #9958

  • GLM5 W4A8 deployments can see a significantly lower speculative decoding acceptance rate when MTP3 is used together with FlashComm. #9803

  • MiniMax-M2.7 W8A8/QuaRot can show lower-than-expected GPQA accuracy in long-sequence deployments when PCP/DCP is combined with Eagle3 speculative decoding. #9959

  • KV Pool feature for DeepSeek V4 now faces several known issues affecting user-friendliness and performance, including special startup parameter requirements, special key storing behaviors, etc. For details, please refer to issue #9975.

v0.18.0 - 2026.04.30#

我们很高兴地宣布 vLLM Ascend v0.18.0 正式发布。这是 v0.18.0 的正式版本。请按照 官方文档 开始使用。

亮点#

模型支持

  • Kimi-K2.x 模型支持:[实验性]添加了对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755

  • Minimax-m2.x 模型支持:[实验性]添加了对 Minimax-m2.x 模型的支持,支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714

  • GLM5 支持:[实验性]无需任何代码修改即可支持 GLM5 模型!

  • Qwen3.x 支持:[实验性]无需任何代码修改即可支持 Qwen3.x 模型!

  • DeepseekOCR 支持:[实验性]添加了对 DeepseekOCR 模型的支持,并优化了 RelPosAttentionCustomQwen2Decoder。@Wangbei25 #7737

核心功能

  • EPLB(专家并行负载均衡):EPLB 经过大量 bug 修复后更加稳定,性能也得到提升。EPLB 现在在大多数情况下都能正常工作,推荐使用。#6528 #7344 #7890 #6477

  • ACLGraph 增强:ACLGraph 现在支持为多步草稿捕获单个合并图,大大减少了多步推测解码场景中的 host bound!#5553 #5940

  • KV 池化:增强的 KV 池与 Mooncake 连接器现在支持稀疏注意力,LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案被添加,支持 HIXL 互联的 FabricMem 模式,支持 yuanrong 作为 AscendStoreConnector 的后端,并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前的版本相比,KV 池化在 TTFT 上实现了巨大的性能优化!#6339 #6882 #6806 #6869 #7032

  • PD 分离:Mooncake layerwise 连接器现在支持混合注意力管理器和 PCP 功能。#7022 #6627

  • NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006

  • RL(强化学习):[实验性]通过 AscendC 和 triton op 实现了批量不变性功能,增强了 RL,并添加了路由重放功能。#6590 #6696

  • CPU 绑定默认启用:启用了仅 ARM CPU 绑定,采用全局切片 A3 策略,提高了 hostbound 场景中的推理吞吐量。#6686

功能#

  • 混合模型现已支持前缀缓存。#7103

  • Flash Comm V1 现已支持使用 MLA 的 VL 模型,移除了之前对多模态服务的一个限制。#7390

  • VL MoE 模型现在支持 SP,并且移除了 sp_threshold,转而采用 vLLM 的 sp_min_token_num#7044

  • [实验性]流水线并行现在支持异步调度,提高了 PP 部署的吞吐量。#7136

  • Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038

  • 重构 eagle3/mtp,eagle3 和 mtp 现在使用相同的 proposer。#6349 #7033

硬件与算子支持#

  • 首次支持 310P,并进行了巨大的性能优化!

    • 支持 W8A8 量化。#6641 #6454

    • 支持 weightNZ 特性,支持量化或非量化权重。#6705

    • 支持 W8A8SC 量化方法。#7075

    • 修复图模式下后采样不工作问题。#8077

    • 为 300I DUO 新增 addrmsnorm 支持。#6704

    • 修复了 310P 上 ngram 图重放的精度错误。#7134

  • 自定义算子:添加了多个自定义算子,包括:

    • 为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661

    • 新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725

    • 为 MoE 模型新增了 GMM 自定义算子。#7010

    • 优化了 split_qkv_rmsnorm_rope 算子。#6827

    • Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450

    • 新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366

    • 优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707

    • 重构并优化了 CausalConv1d。#7495

性能#

  • 初始化性能:优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645

  • Qwen3.x 性能:[实验性]通过支持全图模式、PD 分离、mamba prefill 前缀缓存和 flashcomm1、预构建 chunk 元数据以减少主机-设备同步开销,以及多项算子性能优化(包括 chunk_gated_delta_rulechunk_fwd_kernel_osolve_trilrecompute_w_u_fwd_kernelsplit_qkv_rmsnorm_mrope 等),优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368

  • Kimi-K2.x 性能:[实验性]通过支持 eagle3 和 flashcomm1,并减少 d2h 开销,优化了 Kimi-K2.x 的性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521

  • Qwen3-VL 性能:Qwen3-VL 通过 Flash Comm V1 和 qkv_rmsnorm_mrope 支持获得了更强的多模态算子能力,并通过 aclnn BatchMatMulV2 使卷积计算速度提升 2.7 倍,支持 EAGLE 推测解码。#7893 #7852 #7017 #6327

  • Qwen3-Omni 性能:现已提供 Qwen3-Omni 量化适配和优化。#6828

  • DeepSeek-V3.2/GLM5 性能:性能优化,支持 W8A8C8 量化,并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610

  • GLM4.7-Flash 性能:为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492

依赖项#

${PYTHON_TAG} 是 Python 版本标签,${ARCH} 是 CPU 架构。

例如:python3.11 和 aarch64,${PYTHON_TAG}=cp311,${ARCH}=aarch64。

弃用与重大变更#

  • 清理并弃用了 ProfileExecuteDuration 功能。#6461

  • 移除了自定义 rotary_embedding 算子。#6523

  • 清理了未使用的环境变量 USE_OPTIMIZED_MODEL#6618

  • 配置选项 enable_flash_comm_v1 已重命名回 enable_sp#6883

文档#

  • 新增了 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169

  • 在常见问题解答中添加了抢占指导。#8136

  • 更新了 GLM5 的部署和支持文档,包括参数描述、最佳实践和常见问题解答。#7963 #7909

  • 更新了 Qwen3.5 用户指南。#7934

  • 更新了 DeepSeek-V3.2 的文档配置。#7970

  • 清理了文档的措辞和语法。#8073

  • 更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300

  • 新增了 CPU 绑定的用户/开发者指南。#7045

  • 新增了 Memcache 使用指南。#6476

  • 新增了后缀推测解码的基准测试教程。#6323

  • 新增了 npugraph_ex 介绍文档。#6306

其他#

  • 为捕获模式添加了异步通信检查。#8149

  • 修复了池化场景之间的 KV Pool 冲突,并修复了 vLLM v0.18.0 上缺失的 KV 缓存放置问题。#8101 #7874

  • 通过修正注意力状态处理,修复了短提示转发问题。#8088

  • 为均匀令牌分发恢复了 global_bs=0mc2_mask,并支持跨节点 RoCE 分层 MC2 通信。#8040

  • 修复了 Qwen3-VL 的权重映射器错误。#7868

  • 通过将反向映射改为前向映射,修复了 AscendModelSlimConfig 中的量化配置键映射。#7716

  • 修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472

  • 分层连接器现在支持重计算调度器。#5900

  • 修复了池化代码问题并更新了使用指南。#6126

  • NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968

已知问题#

  • 目前,在多 DP 和大令牌数场景(kv_producerkv_both)下,不推荐使用 VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌,这些令牌将被路由到某些专家,导致某些 rank 接收令牌过载,从而引发精度和性能问题。#8320

  • 目前,EPLB 不支持 minimax_m2 模型和 W4A8 量化。#8341

  • 当预填充请求的调度令牌数小于 1 + num_speculative_tokens 时,PCP 和 eagle3 叠加可能会产生错误,这将导致该预填充请求被当作解码请求处理,从而引发错误。#8402

  • 不支持 NPU 软分区 + CUDAGraphMode.PIECEWISE#8585

  • Qwen3.x 在 PD 解耦场景下存在精度问题。#8421

  • 当前在 x86 架构上存在一个已知问题,该问题已在 CANN 9.0.0 中解决。若要在 x86 上部署 vllm-ascend,请手动升级 CANN 版本。#7993

  • P/D 代理在重算重试后可能泄漏资源并掩盖 metaserver 错误。#8852

  • 通过 PD 架构分别部署 GLM5 和 Deepseek V3.2 时,存在概率性输出为空或乱码的问题。#8853

  • 对于 PD 分离下 D 节点配置为 TP16 DP2 并行的 GLM 5/5.1,GPQA 精度未达到标准。#8844

v0.19.1rc1 - 2026.04.30#

这是基于 vLLM v0.19.1 的 vLLM Ascend v0.19.1 首个候选发布版本。此版本包含显著的性能优化、新模型支持、硬件扩展以及重要的错误修复。

请按照官方文档开始使用。

亮点#

  • DFlash Attention 后端:新增 DFlash attention 后端,支持 FULL_DECODE_ONLY 模式以提升推理性能。(#8118, #8516, #8627)

  • 零气泡异步调度:为异步调度和推测解码实现了零气泡优化,显著降低了调度开销。(#7640)

  • A2/A3 注意力算子升级:将 npu_fusion_attention 替换为 _npu_flash_attention_unpad 算子,以在 A2 和 A3 硬件上获得更佳性能。(#8671)

  • Eagle3 + MiniMax-M2.5 支持:将 Eagle3 推测解码应用于 MiniMax-M2.5 模型,实现更快的推理。(#7619)

  • GQA 的 C8 INT8 KV 缓存:为 GQA 注意力模型添加了 C8(INT8 KV 缓存)支持,包括支持 PD 解耦的 DeepSeek-V3.1。(#7474, #7222)

  • Bailing 模型支持:全面支持 Bailing MoE 模型,包括线性适配和 ModelSlim 量化。(#8657, #8709)

功能#

  • Qwen3-VL 的 Flash Comm V1:为 Qwen3-VL 多模态模型支持 Flash Comm V1。(#7897)

  • Eagle + PCP + 全图模式:支持 Eagle 与 PCP 及全图模式的组合。(#7924)

  • PCP 下的多模态推理:启用预填充上下文并行功能时支持多模态推理。(#8038)

  • PP 的动态分块:为分块流水线并行支持动态分块。(#7896)

  • 基于汉明距离的稀疏注意力:新增基于汉明距离的稀疏注意力推理框架和算子。(#8564, #8346)

  • 优化的因果 Conv1d 算子:新增优化的因果 conv1d 算子。(#8215)

  • 循环 AscendC 算子:为特定模型架构新增循环 AscendC 算子。(#8055)

  • GLM4.7 C8 支持:支持 GLM4.7 的 C8(INT8 KV 缓存)场景。(#8174)

  • Minitron-8B-Base 支持:验证并支持 nvidia/Minitron-8B-Base 模型。(#8157)

  • Bailing 模型支持:全面支持 Bailing MoE 模型,包含线性适配和 ModelSlim 量化配置。(#8657, #8709)

  • Qwen3.5 MoE Flash Comm:为 Qwen3.5 MoE 模型支持 Flash Comm。(#7486)

  • MRv2 的初始 MoE 支持:为 Model Runner V2 添加初始 MoE 模型支持。(#7922)

  • Xlite 后端扩展

    • XLite GLM-4.7 支持。(#7935)

    • 在 xlite 后端支持 Qwen3VLMoeForConditionalGeneration。(#8046)

  • EPLB 增强

    • Swift 均衡器策略支持混合放置。(#8035)

    • EPLB 适配多模态模型。(#7743)

  • model_runner_v2 的 Eagle 改进

    • 修复了图模式下 Eagle 的接受率问题。(#8365)

    • 修复了 Eagle 的精度问题 (#8230, #8033)

    • 使 Eagle 适配 model_runner_v2 (#7885)

  • MTP 合并图:支持 MTP(多令牌预测)的合并图 (#6860)

  • 统一 MoE 专家放置:支持共享专家和路由专家的统一放置 (#7188)

  • Dispatch V2 层级通信:支持 dispatch_v2/combine_v2 层级通信以提升 MoE 性能 (#7583)

  • Dispatch FFN Combine 的 Xmask:为 dispatch_ffn_combine 算子添加 xmask 功能(w8a8 分支)(#8560)

  • 融合 W4A8 内核:将 W4A8 dispatch + FFN + combine 融合为单个内核 (#7779)

  • KV 缓存内存核算:在 KV 缓存规划中考虑图捕获内存 (#8289)

  • Qwen3-Next 混合注意力:支持 piecewise 和 full_decode_only 模式下的 Qwen3-next 混合注意力 (#7422)

  • GDN 优化:优化 GDN 非推测预填充回退元数据 (#7756)

  • Qwen3-VL 支持:为 Qwen3-VL 支持 kv_rmsnorm_mrope (#7762)

  • Mamba 前缀缓存:Layerwise connector 支持 Mamba 预填充前缀缓存 (#7814)

  • Yuanrong KV 池后端:为 KV 池添加 Yuanrong 后端支持 (#6869)

硬件与算子支持#

  • 310P 增强功能

    • Qwen3.5 模型适配与主线同步 (#8009)

    • 支持 W8A8 动态线性方法 (#7725)

    • 在 Qwen3.5 的融合 MoE 中支持共享专家路径 (#7674)

    • 添加 npu_causal_conv1d_310 AscendC 自定义算子 (#7798)

    • 添加 recurrent_gated_delta_rule_310 AscendC 自定义算子 (#7926)

性能#

  • A2/A3 注意力:使用 _npu_flash_attention_unpad 算子替换 npu_fusion_attention 以提升性能 (#8671)

  • MLA PCP 预填充优化:通过避免投影不必要的尾部 KV 令牌来优化 MLA PCP 预填充注意力 (#8787)

  • 异步调度优化

    • 异步调度下发气泡优化 (#8766)

    • 零气泡异步调度与推测解码 (#7640)

  • KV 缓存优化

    • 通过 aclrtMemcpyBatchAsync 实现批量 KV 缓存卸载 (#7819)

    • 通过在 all-gather 之前选择块来优化 KV 缓存收集 (#8050)

  • 算子优化

    • 优化 split_qkv_tp_rmsnorm_rope 算子 (#8059)

    • 优化 Qwen3Next/Qwen3.5 预填充阶段的主机-设备同步问题 (#7967)

    • 减少 PCP/DCP (SFA) 的预填充 KV all-gather 通信 (#8043)

    • 添加惩罚相关的 Triton 内核以提升惩罚性能 (#7569)

  • Triton 内核优化 (model_runner_v2)

    • 优化 _temperature_kernel 和 _topk_log_softmax_kernel (#8083)

    • 优化 _min_p_kernel 性能 (#8243, #7767)

    • 添加 bad-words-kernel triton 内核 (#8030)

    • 优化 bincount_kernel 性能 (#7757)

    • 优化 _ranks_kernel 性能 (#7767)

    • 优化由函数参数触发的 triton 重编译 (#7480, #7481, #7483)

  • HCCL 进程组复用:在 Ascend 上复用等效的 HCCL 进程组 (#7654)

  • CPU 绑定延迟:将 CPU 绑定延迟至 worker 预热完成 (#7829)

  • Conv3d 转 Linear:当 kernel 大小等于 stride 时将 conv3d 转换为 linear (#8318)

依赖项#

  • vLLM:升级至 vLLM v0.19.1 (#8448)

  • Transformers:从 4.57.4 升级至 transformers 5.5.3,这是一次重大版本升级,包含显著改进和 API 变更 (#8448)

  • lm-eval:升级至 lm-eval 0.4.11 以兼容 transformers 5.5.3 (#8448)

  • 新增依赖项:在 requirements 中添加了 memcache 和 memfabric (#8747)

文档#

  • PD 分离指南

    • 使用 UCM 和 Mooncake 的 PD 分离 (#8338)

    • 动态分块流水线并行指南 (#8728)

  • 模型文档

    • GLM-5.1 模型教程 (#8054)

    • GLM4.7 文档更新 (#8450)

    • GLM5 文档(含参数和常见问题解答)(#7958, #7850)

    • Qwen3.5 用户指南更新 (#7866)

    • Kimi-K2.5 文档更新 (#7901)

    • Qwen3-Omni-30B-A3B-Thinking 文档 (#8628)

    • DeepSeekOCR2 文档 (#8573)

    • Hunyuan-A13B-Instruct 验证与文档 (#7381)

    • LLaVA-OneVision-Qwen2-0.5B-OV 教程 (#7912)

  • 文档改进

    • 启用 Markdown 公式的 MathJax 渲染 (#8793)

    • 更新版本策略 (#8656)

    • 在常见问题解答中添加抢占描述 (#8131)

    • 更新支持的 vLLM 版本 (#7923)

    • 参数化版本策略兼容性矩阵 (#8002)

    • 避免隐藏 NPU 导致的 A2 CPU 绑定重叠及文档更新 (#8792)

其他#

重要 Bug 修复

  • GQA C8 Fullgraph:修复了 GQA C8 fullgraph 模式下的一个 bug (#8779)

  • DSV3.1 W4A8 TTFT:回退 balance_flag 的变更以修复 DSV3.1 W4A8 TTFT 性能下降 (#8675)

  • DSV3.1 服务启动:修复 DeepSeek-V3.1 服务启动失败的问题 (#8208)

  • Qwen3.5 MoE 高并发:修复 dp>1 时高并发下 Qwen3.5 MoE FC1 错误 (#8396)

  • Qwen3.5 MoE Flash Comm:修复 A2 上 Qwen3.5 MoE flash comm v1 mtp 层共享专家形状错误 (#7683)

  • 图捕获OOM:修复了 model_runner_v2 中的图捕获内存溢出问题(#8111)

  • DeepSeek 3.2 C8精度:通过回退量化层修复了 DeepSeek 3.2 C8 的精度问题(#7628)

  • DeepSeek 3.2 DCP MTP:修复了 ds3.2 dcp mtp 问题(#7617)

  • MTP1并发崩溃:修复了 MTP1 在多个并发场景下的崩溃问题(#7459)

  • 投机解码+异步:修复了投机解码和异步的 bug(#8461)

  • 投机解码+Logprobs:修复了禁用异步调度时投机解码+logprobs 的崩溃问题(#7861)

  • 重复惩罚:修复了异步调度中 repetition_penalty 无效的问题(#7789)

  • P/D KV缓存:修复了 P/D 场景中 TP 不相等时 MTP 层的 KV 缓存问题(#8540)

  • P/D短序列:修复了 P/D 模式下短序列无响应的问题(#8104)

  • P/D重试机制:添加了重试机制以防止 P/D 中的丢包(#8166)

  • 分层连接器OOM:修复了大缓冲区传输时分层的连接器内存溢出问题(#7834)

  • KV池Put逻辑:修复了 KV 池未放入 KV 缓存的问题,并修复了 KV 传输的 Put 逻辑(#7875, #7717)

  • KV池PCP/DCP:修复了 KV 池的 PCP 和 DCP bug(#8099)

  • Mooncake后端:MooncakeBackend 处理 Ascend 之外的协议(#8514)

  • FlashComm服务器初始化:修复了使用 FLASHCOMM 时 max_num_seqs 不是 tp 倍数时的服务器初始化错误(#7801)

  • Triton重装:在 vllm-ascend 安装后重新安装 triton-ascend(#7790)

  • DBO兼容性:为 Ascend NPU 上的 --enable-dbo 添加了兼容性保护(#8507)

  • NPU上的GPU参数:在 Ascend NPU 上保护 GPU 特定的并行配置参数(#8703)

  • A2 CPU绑定:避免隐藏 NPU 导致的 A2 CPU 绑定重叠(#8792)

  • FIA填充Bug:修复了 EAGLE 最大并发下的 FIA 填充 bug(#7740)

  • MoE加载精度:修复了 allgather 中 moe_load 的精度问题(#7887)

  • Qwen的FlashComm1+DCP:支持 Qwen 模型的 FlashComm1 和 DCP(#7673)

  • 块验证:禁用块验证以避免 NPU 上的错误验证(#7603)

  • Model Runner V2全图:修复了全图模式下的 model_runner_v2(#7945)

  • MRv2投机解码:修复了 mrv2 在投机解码时的运行时错误(#8209)

  • GLM工具调用流式:修复了 GLM 工具调用流式问题(#8832)

  • 强制工具选择:修复了强制工具选择的 none-content 处理(#8833)

  • MiniMax推理用量:修复了 MiniMax 推理用量统计(#8831)

其他Bug修复:

  • MTP 在 lmhead TP logits 截断后的循环批次大小(#8718)

  • 修复了 DSV32 混合部署中 layer_sharding 导致的错误(#8717)

  • EPLB topk_ids 使用逻辑专家计数(#8501)

  • EPLB 验证逻辑优化及 MTP 支持冗余专家(#8710)

  • SP 在 MoE 序列并行中保留图字符串化(#8780)

  • SpecDecode 修复 draft quarot 模型加载超时(#8736)

  • 修复 _dummy_run 预热与 --language-model-only 不匹配的问题(#8556)

  • 修复 AscendYaRNRotaryEmbedding 中的 AttributeError(#8734)

  • Eagle3 添加全图形案例并检查 mock 函数 (#8668)

  • 修复 npu_fused_infer_attention_score_v2 中的 atten_mask (#8387)

  • 修复 eagle 与 dflash 在 pcp 上的冲突 (#8598)

  • 修复 DeepSeek 3.2 PCP+MTP 的 slot 映射错误 (#8547)

  • dispatch_ffn_combine 内核回滚 (#8539)

  • 层分片需要 KV 生产者 (#8562)

  • 310P 使用 CPU 生成器缓存进行采样 (#8495)

  • 修复 pcp+eagle3 的 compute_slot_mapping triton (#8435)

  • 在 fuse_moe 中处理基于枚举的 MoE 激活 (#8465)

  • 按 PD 模式门控 recompute/balance/fused_mc2 (#8373)

  • w8a8 dispatch ffn combine 偏置参数适配 (#8342)

  • 修复 flashcomm1 下 GLM-5 的 w8a8_static 中 quant_bias 缺失问题 (#8220)

  • 修复 deepseek v3.2 的 DSA-CP PD 角色门控 (#8290)

  • 逐层 AscendStorConnector 需要分段 cudagraph (#8283)

  • 修复 patch balance 调度器中的远程 KV 等待提升问题 (#8279)

  • 对 CPU 绑定子进程解析强制执行 C 语言环境 (#8251)

  • 在 mlapo 分支 SFA 中添加 wait_for_kv_layer_from_connector (#8195)

  • 修复 SP 填充时的维度不匹配问题 (#7858)

  • 310P 修复 Triton 内核 block_table 崩溃 (#8144)

  • 修复短提示的注意力状态 (#8029)

  • 310P 修复图模式下后采样不工作问题 (#8017)

  • 310P 使 GDN 状态语义与 vLLM 对齐 (#7902)

  • 310P 处理 ShardedStateLoader310 中的空量化配置 (#7546)

  • 在 eager 模式下启用 SP 和 eagle3 时取消填充 block table (#7986)

  • 修复 qwen3-next 编译错误 (#7936)

  • 修复 qwen3-vl 的 weightsmapper 错误 (#7869)

  • 修复量化配置属性错误 (#7736)

  • 移除 eplb 不必要的 weight_scale 包装行为 (#7733)

  • 适配 model runnerv2 的 main2main 并在休眠模式添加垃圾回收 (#7709)

  • 修复嵌入模型的前缀缓存支持 (#7452)

  • 在图+强化学习场景中复用权重地址 (#7473)

已知问题#

v0.18.0rc1 - 2026年04月01日#

这是 vLLM Ascend v0.18.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • C8(INT8 KV 缓存)现已支持 GQA 注意力模型,并且在 PD 解耦场景下的 DeepSeek-V3.1 中也得到支持。#7474, #7222

  • 通过新的 MLA 算子,DeepSeek 模型现已在 A5 上得到支持。#7232

功能#

  • Flash Comm V1 现已支持使用 MLA 的 VL 模型,移除了之前对多模态服务的一个限制。#7390

  • 支持在推测式解码中为目标模型和草稿模型使用独立的注意力后端,允许针对每个模型进行更精细的后端调优。#7342

  • VL MoE 模型现在支持 SP,并且移除了 sp_threshold,转而采用 vLLM 的 sp_min_token_num#7044

  • Qwen VL 模型现在支持 w8a8_mxfp8 量化。#7417

性能#

  • 优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645

  • 通过预构建分块元数据,优化了 Qwen3.5 和 Qwen3-Next GDN 的预填充路径,减少了主机-设备同步开销。#7487

  • 简化了 FIA 预填充上下文合并路径,以提高运行时效率。#7293

文档#

  • 更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300

其他#

  • 修复了一个 PD 解耦问题,该问题曾导致解码节点因 DP 节点间形状未对齐而卡住。#7534

  • 修复了一个回归问题,该问题导致升级到 v0.18.0 后,Ascend 上的混合注意力加 Mamba 模型可能以错误的块大小启动。#7528

  • 修复了单卡部署中多实例服务 OOM 计算的问题。#7427

  • 修复了在叠加 MTP 与完全解码和全图模式时 DeepSeek v3.1 C8 的问题。#7571

  • 通过将反向映射改为前向映射,修复了 AscendModelSlimConfig 中的量化配置键映射。#7716

已知问题#

  • 在高并发下运行启用了 MTP 和 KV Pool 的 DeepSeek-R1 W8A8 时,可能会出现 ValueError: Counters can only be incremented by non-negative amounts 错误。#7489

  • triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到 triton-ascend==3.2.0.dev20260322 并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782

  • 在 Ascend 上使用 tp-size >= 16 时,FIA 不支持所有的 MHA 头维度。受影响的模型会因不支持的头部维度而出错。这将在未来的版本中,当 FIA 支持更多头部维度时得到解决。#7729

  • 尽管 Minimax-2.5 现在支持 PD 解耦,但内部测试发现启用此功能时,在 GPQA 基准测试上会出现 13% 的性能回退。我们目前不建议为此模型启用 PD 解耦,并且我们正在努力进行优化修复。

v0.17.0rc1 - 2026年03月15日#

这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已支持 Ascend950 芯片。#7151

  • Model Runner V2 现已支持 ACLGraph(图模式)。#7110

  • 支持统一的并行化推测解码,可同时启用并行草稿推理方案。#6766

功能#

  • 支持从模型文件自动检测量化格式,同时也支持远程模型ID(例如 org/model-name)。现在不再需要 --quantization ascend 参数。#7111

  • 从本版本开始支持 Qwen3.5。

  • 用于 EPLB 的 FlashLB 算法:支持每步热度收集和多阶段负载均衡,以提高专家并行效率。#6477

  • 已修复并支持了结合张量并行和 --fully-sharded-loras 的 LoRA。#6650

  • 新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。#6882

  • 在 PD-mix 场景下,DeepSeek-V3.2 现已支持 W8A8C8 量化。#7029

  • [实验性] Ascend NPU 现已支持 Minimax-m2.5 模型。#7105

  • [实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。#7022

  • [实验性] 混合模型现已支持前缀缓存。#7103

性能#

  • 流水线并行现在支持异步调度,提高了 PP 部署的吞吐量。#7136

  • 通过减少日志开销,改善了使用 Mooncake 连接器时的首令牌延迟。#6125

  • 针对短序列(令牌长度 < block_size)优化了 KV 池查找。#7146

  • 修复了 Model Runner V2 中的惩罚操作,实现了约 10% 的性能提升。#7013

文档#

  • 新增了 EPD(编码-预填充-解码)文档和负载均衡代理示例。#6221

  • 新增了 Ascend PyTorch Profiler 使用指南。#7117

  • 修复了 DSV3.1 PD 配置文档。#7187

其他#

  • 修复了推测解码在全图模式下草稿器崩溃的问题。#7158 #7148

  • 修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。#7139

  • 修复了 310P 上 ngram 图重放的精度错误。#7134

  • 在上游 vLLM 变更后,修复了图模式下的 FIA 填充逻辑。#7144

  • 修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。#7209

  • 修复了在 rank0 设备上产生额外进程的问题。#7107

  • 图捕获失败现在会正确抛出异常,便于调试。#5644

  • 通过将 torch_npu.npu_recurrent_gated_delta_rule 替换为 fused_recurrent_gated_delta_rule 来修复 Qwen3.5 模型。#7109

  • 修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156

已知问题#

  • GLM5 需要 transformers==5.2.0,此问题将通过 vllm-project/vllm#30566 解决,不会包含在 v0.17.0 中。

  • 由于 TP 权重分割方法变更,Qwen3-Next 存在精度问题。将在下个版本中修复。

  • 在混合模型中,当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关,例如,当 TP=2 时,block_size 调整为 2048,这意味着任何短于 2048 的前缀都不会被缓存。

  • GLM5 在 2 节点 PD 混合部署场景中存在一个问题:当并发数超过 8 时,推理可能会挂起(已在 PR #7235#7290 中修复)。

v0.16.0rc1 - 2026年03月09日#

这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已提供 Qwen3-Omni 量化适配和优化。#6828

  • 通过参数化硬编码的 MLA 维度,现已支持 GLM5-W8A8 量化。#6902

功能#

  • [实验性] 支持 ADXL/HIXL 互连的 FabricMem 模式。#6806

  • Qwen3-Next 现已支持 FlashComm1。#6830

  • NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968

  • EPLB 性能分析现在会显示专家热度对比以及 EPLB 调整所需的时间。#6877 #7001

  • Xlite Qwen3 MoE 现已支持数据并行(Data Parallel)。#6715

  • Mooncake Layerwise Connector 现已支持 kv_pool。#7032

  • Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038

硬件与算子支持#

  • 310P 现已支持 w8a8sc 量化方法。#7075

  • 为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661

  • 新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725

  • 为 MoE 模型新增了 GMM 自定义算子。#7010

性能#

  • 更快的卷积计算将 Qwen3-VL 模型的首次令牌时间(TTFT)提升了 0.95%,吞吐量提升了 0.59%。#7017

  • 优化了 split_qkv_rmsnorm_rope 算子。#6827

  • 实现了全局 CPU 切片并改进了 Ascend NPU 的 IRQ 绑定,确保 CPU 分区不重叠,实现更优的资源管理。#6945

  • 通过重排状态更新操作优化了 MTP 执行。#6844

  • 通过使用完整张量拷贝,避免了 mrope_positions 拷贝时的 CPU 同步。#7014

  • 移除了 MoE 模型中 expert_map 的 H2D 同步。#7000

依赖项#

  • CANN 已升级至 8.5.1,如果您未使用官方镜像,请记得手动升级。#6897

弃用与重大变更#

  • 配置选项 enable_flash_comm_v1 已重命名回 enable_sp#6883

  • 从模型文件自动检测量化格式的功能已回退。在 v0.16.0rc1 版本中,要服务由 modelslim 量化的模型,仍需添加 --quantization ascend 参数。在修复了远程模型 ID 相关的 bug 后,此功能将在下一版本中重新加入。#6873

文档#

  • 新增了 CPU 绑定的用户/开发者指南。#7045

  • 新增了指标使用文档和示例。#6962

  • 新增了用于 LLM 发现的 llms.txt 文件。#6886

  • 新增了 GLM4.x 多节点部署教程。#6872

  • 新增了对 310p 特殊参数 max-model-len 的说明。#7065

其他#

  • 修复了 openEuler Dockerfile 错误。#6871

  • 多项错误修复,包括:

    • 修复了启用上下文并行(Context Parallel)时的 Eagle 推测解码问题。#6981 #7079

    • 修复了上游 vLLM 变更引入的 LoRA 精度问题。#6958

    • 修复了负载均衡代理服务器中的流式传输 content-type 问题。#6985

    • 修复了元数据执行错误:整数除以零取模。#6521

    • 修复了 triton rope_siso 实现中的 bug。#7082

    • 修复了 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064

    • 修复了 CANN b020 之后版本的编译错误。#7059

    • 修复了 GLM4.6V 中的量化配置支持问题。#7062

    • 修复了 _merge_multimodal_embeddings 中的参数顺序错误。#7068

    • 修复了 EPLB 中的融合 mc2 错误。#6794

    • 修复了计算槽位映射时的内核块大小问题。#7019

    • 修复了 P/D 解耦中分层堆叠 MTP 的错误。#7036

    • 修复了 npu_rotary_embedding 的 RoPE 维度问题。#6880

    • 修复 Qwen-Omni 量化错误。#7042 #7007

    • 修复图模式下 GDN 层精度问题。#6822

    • 修复 PD 解耦中 PCP/DCP 的精度错误。#6876

    • 修复 PD 解耦中的 MTP 问题,为所有 D 节点提供全图支持。#6948

    • 修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012

    • 修复 MTP 预填充被误分类为解码的边缘情况。#6835

    • 修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914

    • 修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939

    • 修复 Qwen2.5VL 精度问题。#6975

    • 修复启用静态内核时的 MoE 前向传播错误。#6964

    • 修复 GLM5 模型的 muls_add 融合问题。#6928

    • 修复多模态模型的 GDN 层检测问题。#6941

    • 修复 300I 非量化模型的权重 nd2nz 错误。#6851

    • 修复 CPU 绑定逻辑。#6889

    • 修复 Eagle 全图形状捕获问题。#6846

已知问题#

  • 目前,对于 DeepSeek v3.2,PCP 和 DCP 尚不能与 FlashComm1 功能协同工作,这可能导致服务错误或其他未知错误。

  • 在采用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中,P 节点在高并发场景(例如,2K/2K tokens 和 512 个并发请求)下进行基准测试时可能出现挂起。

  • 具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个 bug,目前有一个临时解决方案可以避免此问题:显式设置 --compilation-config '{"max_cudagraph_capture_size": N}',其中 N = max_concurrency × (1 + num_speculative_tokens)

v0.15.0rc1 - 2026.02.27#

这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006

  • 310P MoE 和 W8A8 支持[实验性]:310P 现已支持 MoE 模型、W8A8 量化和 weightNZ 功能,显著扩展了硬件能力。#6530 #6641 #6454 #6705

  • Qwen3-VL-MoE EAGLE 支持:为 Qwen3-VL-MoE 模型添加了 EAGLE 推测式解码支持。#6327

  • Kimi-K2.5 模型支持:添加了对 Kimi-K2.5 模型的支持。请注意,vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题,请应用上游 vllm-project/vllm 仓库的更改,特别是来自拉取请求 #33320#34501 的更改。#6755

功能#

  • 自动检测量化格式:现在可以从模型文件自动检测量化格式。#6645

  • GPT-OSS Attention 支持:添加了 GPT-OSS attention 实现。#5901

  • SFA 的 DCP 支持:为 SFA 架构添加了解码上下文并行 (DCP) 支持。#6563

  • Mooncake 分层 PCP 支持:Mooncake 分层连接器现在支持 PCP 功能。#6627

  • Mooncake 连接器远程 PTP 大小:Mooncake 连接器现在可以获取远程 PTP 大小。#5822

  • KV 池稀疏注意力:KV 池现在支持稀疏注意力。#6339

  • 使用 AscendC 实现批处理不变性:使用 AscendC 实现了批处理不变性功能。#6590

  • 路由重放:新增路由重放功能。#6696

  • 压缩张量 MoE W4A8 动态权重:新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889

  • GLM4.7-Flash W8A8 量化:为 GLM4.7-Flash 新增 W8A8 量化支持。#6492

  • DispatchGmmCombineDecode 增强:DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393

  • RMSNorm 动态量化融合:新增 rmsnorm 动态量化融合 pass。#6274

  • 工作进程健康检查接口:为工作进程新增 check_health 接口。#6681

硬件与算子支持#

  • 310P 支持扩展:针对 310P 硬件的多项改进:

    • 修复了 310P 上的注意力精度问题。#6803

    • 为 310P 新增 weightNZ 特性,支持量化或非量化权重。#6705

    • 为 300I DUO 新增 addrmsnorm 支持。#6704

    • 310P 现在支持 PrefillCacheHit 状态。#6756

  • 仅 ARM CPU 绑定:启用了仅 ARM CPU 绑定,采用 NUMA 均衡的 A3 策略。#6686

  • Triton Rope 增强:Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450

  • AscendC 融合算子:新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366

  • Rotary_dim 参数:在 rotary_embedding 中使用部分 rope 时,新增对 rotary_dim 参数的支持。#6581

性能#

  • 多模态 seq_lens CPU 缓存:使用 seq_lens CPU 缓存以避免频繁的 D2H 拷贝,从而提升多模态性能。#6448

  • DispatchFFNCombine 优化:优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707

  • DeepSeek V3.2 KVCache 优化:优化了 DeepSeek V3.2 的 KV 缓存使用。#6610

  • MLA/SFA 权重预取:重构了 MLA/SFA 权重预取,使其与 MoE 权重预取保持一致。#6629

  • MLP 权重预取:重构了 MLP 权重预取,使其与 MoE 模型的预取机制保持一致。#6442

  • 自适应块大小选择:在 linear_persistent 内核中新增自适应块大小选择功能。#6537

  • EPLB 内存优化:减少了 EPLB 中用于热度聚合的内存占用。#6729

  • 内存迁移与中断核心绑定:改进了绑定逻辑,增加了内存迁移和中断核心绑定功能。#6785

  • Triton 稳定性:提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301

依赖项#

  • Mooncake:升级至 v0.3.8.post1。#6428

弃用与重大变更#

  • ProfileExecuteDuration:清理并弃用了 ProfileExecuteDuration 功能。#6461

  • 自定义 rotary_embedding 算子:移除了自定义 rotary_embedding 算子。#6523

  • USE_OPTIMIZED_MODEL:清理了未使用的环境变量 USE_OPTIMIZED_MODEL#6618

文档#

  • 新增了 vllm-ascend 的 AI 辅助模型适配工作流文档。#6731

  • 新增了 vLLM Ascend 开发指南 (AGETNS.md)。#6797

  • 新增了 GLM5 教程文档。#6709 #6717

  • 新增了 Memcache 使用指南。#6476

  • 新增了请求转发文档。#6780

  • 新增了后缀推测解码的基准测试教程。#6323

  • 重构了教程文档结构。#6501

  • 新增了 npugraph_ex 介绍文档。#6306

其他#

  • PD 全图中的 MTP:修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472

  • DeepSeekV3.1 精度:修复了 DeepSeekV3.1 的精度问题。#6805

  • EAGLE 重构:已将 MTP 路由至 EAGLE,但 PCP/DCP+MTP 的情况除外。#6349

  • 推测解码准确性:修复了 vLLM 0.15.0 中的推测接受率问题。#6606

  • PCP/DCP 准确性:修复了 PCP/DCP 在使用推测解码时的准确性问题。#6491

  • 动态 EPLB:修复了动态 EPLB 无效的 bug,且 EPLB 不再依赖于特定模型。#6653 #6528

  • KV 池 Mooncake 后端:正确初始化了 mooncake 后端的 head_or_tp_rank。#6498

  • 分层连接器重计算调度器:分层连接器现在支持重计算调度器。#5900

  • 内存缓存池:修复了启用内存缓存池时服务启动失败的问题。#6229

  • AddRMSNormQuant:修复了 AddRMSNormQuant 未生效的问题。#6620

  • 池化代码:修复了池化代码问题并更新了使用指南。#6126

  • 上下文并行:修复并统一了 PD 请求判别逻辑。#5939

  • npugraph_ex:修复了重复模式问题,并为 allreduce rmsnorm 融合通道添加了额外检查。#6513 #6430

  • RecomputeScheduler:修复了 RecomputeScheduler 与 vLLM v0.14.1 不兼容的问题。#6286

v0.13.0 - 2026年02月06日#

这是 vLLM Ascend v0.13.0 的最终版本。请按照 官方文档 开始使用。

亮点#

模型支持

  • DeepSeek-R1 & DeepSeek-V3.2:[实验性]性能优化和异步调度增强。#3631 #3900 #3908 #4191 #4805

  • Qwen3-Next:[实验性]全面支持 Qwen3-Next 系列模型(包括 80B-A3B-Instruct),支持全图模式、MTP、量化(W8A8)、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。#3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770

  • InternVL:添加了对 InternVL 模型的支持,包含全面的端到端测试和准确性评估。#3796 #3964

  • LongCat-Flash:[实验性]添加了对 LongCat-Flash 模型的支持。#3833

  • minimax_m2:[实验性]添加了对 minimax_m2 模型的支持。#5624

  • Whisper 与交叉注意力:[实验性]添加了对交叉注意力和 Whisper 模型的支持。#5592

  • 池化模型:[实验性]添加了对池化模型的支持,并进行了 PCP 适配,修复了多个与池化相关的 bug。#3122 #4143 #6056 #6057 #6146

  • PanguUltraMoE:[实验性]添加了对 PanguUltraMoE 模型的支持。#4615

核心功能

  • 上下文并行 (PCP/DCP):[实验性] 全面支持预填充上下文并行 (PCP) 和解码上下文并行 (DCP),集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能,欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672

  • 全图模式 (ACLGraph):[实验性]增强了全图模式,支持 GQA,进行了内存优化,统一了 ACLGraph 与 Torchair 之间的逻辑,并提高了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118

  • 多令牌预测 (MTP):显著改进了 MTP 支持,包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下都能工作,建议使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477

  • Eagle 推测解码:Eagle 推测解码现已支持全图模式且更加稳定。#5118 #4893 #5804

  • 预填充-解码解耦:将 ADXL 引擎设置为解耦预填充的默认后端,提升了性能和稳定性。为 DeepSeek 解码节点添加了对 KV NZ 特性的支持。#3761 #3950 #5008 #3072

  • KV 池与 Mooncake:增强了 KV 池,支持 Mooncake 连接器用于 PCP/DCP、多输入后缀,并提升了 Layerwise Connector 的性能。#3690 #3752 #3849 #4183 #5303

  • EPLB(弹性预填充负载均衡):[实验性]EPLB 现已更加稳定,修复了多个错误。混合放置现已可用。#6086

  • 仅全解码模式:在 full_decode_only 模式下添加了对 Qwen3-Next 和 DeepSeekv32 的支持,并修复了相关错误。#3949 #3986 #3763

  • Model Runner V2:[实验性]添加了对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210

功能#

  • W8A16 量化:[实验性]添加了对新的 W8A16 量化方法的支持。#4541

  • UCM 连接器:[实验性]为 KV 缓存卸载添加了 UCMConnector。#4411

  • 批次不变性:[实验性]实现了批次不变性特性的基础框架。#5517

  • 采样:在 Eagle 中增强了采样功能,支持 async_scheduler 和 disable_padded_drafter_batch。#4893

硬件与算子支持#

  • 自定义算子:添加了多个自定义算子,包括:

    • 融合的 matmul/reduce-scatter 内核 #3693

    • mrope 融合算子 #3708

    • 用于 Qwen3-Next 的 Triton chunk_gated_delta_rule 算子 #4070

    • l2norm triton 内核 #4595

    • RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine 自定义算子

  • 算子融合:添加了支持 SP 的 AddRmsnormQuant 融合模式以及用于量化的 inductor 融合。#5077 #4168

  • MLA/SFA:将 SFA 重构为 MLA 架构,以提高可维护性。#3769

  • FIA 算子:适配了具有 flash decoding 功能的 npu_fused_infer_attention_score。为优化小批次场景下的性能,现提供此注意力算子。请参考常见问题第 22 条以启用它。#4025

  • CANN 8.5 支持:在启用 FIA 算子后,为 CANN 8.5 移除了 CP 冗余变量。#6039

性能#

本版本添加了许多自定义算子和 Triton 内核以加速模型性能:

  • DeepSeek 性能:[实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用,提升了 DeepSeek V3.2 的性能。#4805 #2713

  • Qwen3-Next 性能:[实验性]通过 Triton 算子和优化提升了性能。#5664 #5984 #5765

  • FlashComm:通过 o_shared linear 和通信域修复增强了 FlashComm v2 优化。#3232 #4188 #4458 #5848

  • MoE 优化:针对 MoE 模型优化了 all2allv 并增强了 all-reduce 跳过逻辑。#3738 #5329

  • 注意力优化:将注意力更新流移出循环,为长序列优化将 BSND 格式转换为 TND 格式,并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390

  • 量化性能:在 Allgather EP 中将量化操作移至 allgather 之前。#3420

  • Layerwise 连接器:[实验性]提升了 Layerwise Connector 的性能。#5303

  • 前缀缓存:提升了前缀缓存特性的性能。#4022

  • 异步调度:修复了异步复制并消除了异步调度中的挂起问题。#4113 #4233

  • 内存操作:移除了冗余的 D2H 操作,并删除了 model_runner 中的冗余操作。#4063 #3677

  • Rope 嵌入:使用 Triton 内核优化了 rope 嵌入,带来巨大的性能提升。#5918

  • 采样:新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098

  • 多模态:在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

依赖项#

  • CANN:已升级至 8.5.0 #6112

  • torch-npu:已升级至 2.8.0.post2。默认安装在 Docker 容器中。

  • triton-ascend:已升级至 3.2.0 #6105

  • vLLM:已升级至 0.13.0 并停止支持 0.12.0。#5146

  • Transformers:已升级至 >= 4.57.4 #5250

弃用与重大变更#

  • CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。

  • ProfileExecuteDuration 功能 已弃用。

  • Ascend 调度器 已被移除。#4623

  • Torchair 已被移除。#4814

  • VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除,建议使用 VLLM_ASCEND_ENABLE_PREFETCH_MLP 替代,因为它们通常总是同时启用。#5272

  • VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270

  • 由于我们注意到在某些浮点权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878

  • additional_config 中的 chunked_prefill_for_mla 现已被移除。#5296

  • additional_config 中的 dump_config 已重命名为 dump_config_path,且类型从 dict 更改为 string#5296

  • 用于嵌入模型的 --task 参数 已弃用。#5257

  • VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。默认将在解码节点启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。

文档#

  • 新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南

  • 新增了多个模型的教程,包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型

  • 更新了常见问题解答和配置文档

其他#

  • OOM 修复:VL 模型上的 OOM 错误现已修复。我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136

  • Qwen3-Next-MTP 精度:修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932

  • ZMQ 错误修复:修复了 zmq 发送/接收失败的错误。#5503

  • 权重转置:修复了 RL 场景中的权重转置问题。#5567

  • Eagle3 SP:使 SP 适配 eagle3。#5562

  • GLM4.6 MTP:GLM4.6 现在支持全图模式下的 MTP。#5460

  • Flashcomm2 Oshard:Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723

  • 细粒度共享专家重叠:支持细粒度的共享专家重叠。#5962

已知问题#

  • 由于 transformers 包的升级,某些模型的量化权重(如 qwen2.5vlgemma3minimax)可能无法工作。我们将在下一个补丁版本中修复此问题。#6302

  • Qwen3-32B 在 128K 输入长度场景下的性能可能不佳,建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。

  • Qwen3-235BQwen3-480B 在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个补丁版本中改进。

  • 在预填充-解码场景下部署 deepseek3.1 时,请确保解码节点的 TP 大小大于 1。TP=1 无法工作。这将在下一个 CANN 版本中修复。

v0.14.0rc1 - 2026年1月26日#

这是 vLLM Ascend v0.14.0 的第一个候选发布版本。请按照 官方文档 开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级,请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。

亮点#

  • 现已恢复对 310P 的支持。在此版本中,仅支持基础密集模型和 VL 模型,且使用 Eager 模式。我们将持续改进和维护对 310P 的支持。#5776

  • 支持压缩张量的 MoE w8a8-int8 量化。#5718

  • 支持 Medusa 推测式解码。#5668

  • 支持 Qwen3vl 使用 Eagle3 推测式解码。#4848

功能#

  • Xlite 后端现已支持 Qwen3 MoE 模型。#5951

  • 支持在 PD-mix 部署场景中使用 DSA-CP。#5702

  • 新增对 W4A4_LAOS_DYNAMIC 量化方法的支持。#5143

性能#

  • Qwen3-next 模型的性能已得到提升。#5664 #5984 #5765

  • CPU 绑定逻辑和性能已得到改进。#5555

  • 合并 Q/K 拆分以简化 AscendApplyRotaryEmb,从而提升性能。#5799

  • 新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在 --additional_config 中设置 fuse_allreduce_rms=True 以启用它。#5034

  • 使用 triton 内核优化 rope embedding,以获得巨大的性能提升。#5918

  • 支持无 top_k 约束的高级 apply_top_k_top_p。#6098

  • 在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

其他#

  • model runner v2 支持 triton 惩罚算子。#5854

  • model runner v2 支持 eagle 推测式解码。#5840

  • 通过默认设置 expandable_segments:True 修复多模态推理 OOM 问题。#5855

  • VLLM_ASCEND_ENABLE_MLAPO 默认设置为 True。在 PD 部署场景中,解码节点会自动启用此功能。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。#5952

  • 对于使用 mooncake 分层连接器的 PD 部署,SSL 配置可以设置到 kv_extra_config 中。#5875

  • 支持 --max-model-len auto#6193

依赖项#

  • torch-npu 已升级至 2.9.0 版本。#6112

弃用与重大变更#

  • EPLB 配置选项已移至 additional config 中的 eplb_config。旧选项在此版本中已被移除。

  • 性能分析器环境变量,例如 VLLM_TORCH_PROFILER_DIRVLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,现已不再适用于 vLLM Ascend。请改用 vLLM 的 --profiler-config 参数。#5928

已知问题#

  • 如果您有时遇到来自 EngineCore 进程的 pickle 错误,请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。

v0.13.0rc2 - 2026年1月24日#

这是 vLLM Ascend v0.13.0 的第二个候选发布版本。在此 rc 版本中,我们修复了大量错误并提升了多款模型的性能。请按照 官方文档 开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。

亮点#

在此版本中,我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误,并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 等模型的性能。

功能#

  • 实现批处理不变性的基础框架 #5517

  • Eagle 推测式解码功能现在可与全图模式协同工作。#5118

  • 上下文并行(PCP&DCP)功能现在更加稳定,适用于大多数场景。请尝试使用。

  • MTP 和 eagle 推测式解码功能现在在大多数情况下都能正常工作。建议在大多数情况下使用它们。

  • EPLB 功能现在更加稳定。修复了许多错误。混合放置现已可用 #6086

  • 支持在 disagg-prefill 场景中为 DeepSeek 解码节点使用 kv nz 功能 #3072

模型支持#

  • 现已支持 LongCat-Flash 模型。#3833

  • 现已支持 minimax_m2 模型。 #5624

  • 支持 cross-attention 和 whisper 模型 #5592

性能#

  • 此版本中添加了许多自定义算子和 triton 内核,以加速模型性能。例如 RejectSamplerMoeInitRoutingCustomDispatchFFNCombine 等。

  • 提升了 Layerwise Connector 的性能 #5303

其他#

  • 基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代引擎,将在未来版本中默认使用。#5210

  • 修复了 zmq 发送/接收可能失败的 bug #5503

  • 支持 Qwen3-Next-MTP 使用全图模式 #5477

  • 修复了强化学习场景中的权重转置问题 #5567

  • 使 SP 适配 eagle3 #5562

  • 上下文并行(PCP&DCP)支持 mlapo #5672

  • GLM4.6 支持全图模式下的 mtp #5460

  • Flashcomm2 现已支持 oshard 通用化特性 #4723

  • 支持为 Eagle 草稿模型设置 tp=1 #5804

  • Flashcomm1 特性现已支持 qwen3-vl #5848

  • 支持细粒度共享专家重叠 #5962

依赖项#

  • CANN 已升级至 8.5.0

  • torch-npu 已升级到 2.8.0.post1。请注意,该版本默认不会安装,请从 pypi 镜像站 手动安装。

  • triton-ascend 已升级至 3.2.0

弃用与重大变更#

  • CPUOffloadingConnector 已被弃用,将在下一个版本中移除,未来将由 vLLM 的 CPUOffload 功能替代。

  • eplb 配置选项已移至 附加配置 中的 eplb_config,旧选项将在下一个版本中移除。

  • ProfileExecuteDuration 功能 已被弃用,已被 vLLM 的 ObservabilityConfig 替代。

  • VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True,将在解码节点默认启用。请注意,此功能会消耗更多内存,如果您对内存敏感,请将其设置为 False。

v0.13.0rc1 - 2025.12.27#

这是 vLLM Ascend v0.13.0 的第一个候选发布版本,在此版本中完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend,请按照 官方文档 开始使用。

亮点#

  • 提升了 DeepSeek V3.2 的性能,请参考 教程

  • 现已支持带分块预填充的 Qwen3-Next MTP #4770,请参考 教程

  • [实验性功能] 已支持预填充上下文并行(Prefill Context Parallel)和解码上下文并行(Decode Context Parallel),请注意这目前是一个实验性功能,欢迎任何反馈。详情请参考 上下文并行特性指南

功能#

  • 支持 openPangu Ultra MoE #4615

  • 现已支持新的量化方法 W8A16。#4541

  • 现已支持跨机解耦预填充(Disaggregated Prefill)。#5008

  • 为 KV 缓存卸载(Offloading)添加 UCMConnector。#4411

  • 在 eagle 中支持 async_scheduler 和 disable_padded_drafter_batch。#4893

  • 在全图模式(full graph mode)下支持 pcp + mtp。#4572

  • 增强 NPUModelRunner 中 MoE 模型的 all-reduce 跳过逻辑。#5329

性能#

一些常规性能改进:

  • 添加 l2norm triton 算子 #4595

  • 为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077

  • 在模型执行时添加异步指数计算。#4501

  • 移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390

  • 为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。

其它#

  • VL 模型上的 OOM 错误现已修复,我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136

  • 修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932

  • 修复了 npu-cpu offloading 接口变更导致的错误。#5290

  • 修复了 aclgraph 模式下 MHA 模型的运行时错误。#5397

  • 修复了 ep=1 场景下不合适的 moe_comm_type。#5388

弃用与重大变更#

  • 移除了 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为 VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常同时启用。#5272

  • 现已废弃 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP#5270

  • 由于在某些 float 权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878

  • 现已废弃 additional_config 中的 chunked_prefill_for_mla#5296

  • additional_config 中的 dump_config 已重命名为 dump_config_path,且类型从 dict 更改为 string#5296

依赖项#

  • vLLM 版本已升级到 0.13.0,并停止对 0.12.0 的支持。#5146

  • Transformer 版本已升级至 >= 4.57.3 #5250

已知问题#

  • Qwen3-Next 不支持长序列场景,运行 Qwen3-Next 时应根据文档限制 gpu-memory-utilization。我们将在下一个版本中改进这一点。

  • 修复了 Qwen3-Next 在输入/输出约为 3.5k/1.5k 时的功能中断问题,但这导致了性能下降。我们将在下一个版本中修复它。#5357

  • DeepSeek-V3.2 中超短序列的 curl 操作存在精度问题。我们将在下一个版本中修复此问题。#5370

v0.11.0 - 2025.12.16#

我们很高兴地宣布 vLLM Ascend v0.11.0 正式发布。这是 v0.11.0 的官方版本。请按照 官方文档 开始使用。如有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。

亮点#

  • 提升了 DeepSeek 3/3.1 的性能。#3995

  • 修复了 Qwen3-VL 的精度错误。#4811

  • 提升了采样(sample)的性能。#4153

  • Eagle3 现已回归。#4721

其它#

  • 提升了 kimi-k2 的性能。#4555

  • 修复了 deepseek3.2-exp 的一个量化错误。#4797

  • 修复了高并发下 qwen3-vl-moe 的错误。#4658

  • 修复了预填充解码解耦(Prefill Decode disaggregation)场景下的一个精度错误。#4437

  • 修复了 EPLB 的一些错误。#4576 #4777

  • 修复了 openEuler Docker 镜像的版本不兼容问题。#4745

弃用公告#

  • LLMdatadist connector 已被弃用,将在 v0.12.0rc1 中移除。

  • Torchair graph 已被弃用,将在 v0.12.0rc1 中移除。

  • Ascend scheduler 已被弃用,将在 v0.12.0rc1 中移除。

升级说明#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • CANN 已升级至 8.3.rc2。

已知问题#

  • 在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。并且如果输入过长,会导致内存溢出(OOM)。我们将在下一个版本中改进此问题。

  • 在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。

  • Qwen2-audio 默认无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适的值,例如 0.8。

  • 如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。

v0.12.0rc1 - 2025.12.13#

这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。

亮点#

  • DeepSeek 3.2 现已稳定且性能得到提升。在此版本中,您无需安装任何其他软件包。请按照 官方教程 开始使用。

  • 现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。

核心#

  • [实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认未启用,但我们建议在大多数情况下通过 --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' 启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中持续改进并默认启用它。

  • 新增了大量 triton 内核。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认未安装且未启用,但我们建议在大多数情况下启用它。您可以从 软件包地址 手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。

  • 新增了大量昇腾算子以提升性能。这意味着从本版本开始,vLLM Ascend 仅在使用自定义算子构建的情况下才能工作。因此,我们移除了环境变量 COMPILE_CUSTOM_KERNELS,您现在无法再将其设置为 0。

  • 推测解码方法 MTP 现已更加稳定。它可以在大多数情况下启用,且解码令牌数量可以设置为 1、2、3。

  • 现已支持推测解码方法 suffix。感谢招商银行的贡献。

  • llm-compressor 量化工具的 W8A8 现已可用。您现在可以直接部署使用该工具生成的 W8A8 量化模型。

  • W4A4 量化现已可用。

  • 支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334

  • 现已支持池化(Pooling)模型,例如 bge、reranker 等。

  • 官方文档已得到改进。我们重构了教程以使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。

其它#

  • [实验性功能] 现已支持 Mooncake 分层连接器。

  • [实验性功能] 新增了 KV 缓存池 功能

  • [实验性功能] 引入了一种新的图模式 xlite。它在某些模型上表现良好。请按照 官方教程 开始使用。

  • 已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。

  • 已移除 Ascend 调度器。--additional-config {"ascend_scheduler": {"enabled": true}} 不再生效。

  • 已移除 Torchair 图模式。--additional-config {"torchair_graph_config": {"enabled": true}} 不再生效。请改用 aclgraph。

  • 已移除 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION 环境变量。该功能已足够稳定,我们现在默认启用它。

  • 推测解码方法 Ngram 现已回归。

  • 新增了 msprobe 工具以帮助用户检查模型精度。请按照 官方文档 开始使用。

  • 新增了 msserviceprofiler 工具以帮助用户分析模型性能。请按照 官方文档 开始使用。

升级说明#

  • 已移除 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。

  • CANN 已升级至 8.3.RC2,PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装它们。

  • 已停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。

已知问题#

  • DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下个版本中修复此问题。#4990

  • Hunyuan OCR 无法工作。我们将在下个版本中修复此问题。#4989 #4992

  • DeepSeek 3.2 无法与聊天模板配合使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。

  • 在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下个版本中修复此问题。#4996

  • 我们注意到 bf16/fp16 模型性能不佳,这主要是因为默认启用了 VLLM_ASCEND_ENABLE_NZ。请设置 VLLM_ASCEND_ENABLE_NZ=0 来禁用它。我们将在下个版本中添加自动检测机制。

  • 推测解码方法 suffix 无法工作。我们将在下个版本中修复此问题。您可以通过拣选(pick)此提交来修复该问题:#5010

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。

亮点#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • 禁用了 NZ 权重加载器以加速稠密模型。请注意,这是一个临时解决方案。如果您发现性能变差,请告知我们。我们将持续改进。#4495

  • 官方 Docker 镜像中现已安装 mooncake。您现在可以直接在容器中使用它。#4506

其它#

  • 修复了 MoE 模型的 OOM 问题。#4367

  • 修复了多模态模型在 DP>1 运行时出现的卡死问题。#4393

  • 修复了 EPLB 的一些错误。#4416

  • 修复了 mtp>1 + lm_head_tp>1 场景下的错误。#4360

  • 修复了 vLLM serve 长时间运行时可能出现的精度问题。#4117

  • 修复了 qwen2.5 vl 在高并发运行下的功能错误。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。

亮点#

  • CANN 已升级至 8.3.RC2。#4332

  • Ngram 投机解码方法现已回归。#4092

  • 通过更新默认捕获大小提升了 aclgraph 的性能。#4205

核心#

  • 加快 vLLM 启动速度。#4099

  • 支持 Kimi k2 量化版。#4190

  • 修复了 qwen3-next 的一个 bug,现在运行更稳定。#4025

其它#

  • 修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。#4106 #4282

  • 修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。#3711

  • 修复了 EPLB 功能的一些 bug。#4150 #4334

  • 修复了多模态(vl)模型无法在 x86 机器上运行的问题。#4285

  • 预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。#4242

  • 增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。#4315

  • 增加了一项检查,以确保 FLASHCOMM 功能不与视觉语言(vl)模型一同使用。该功能将在 2025 年第四季度得到支持。#4222

  • 容器中已安装音频所需的库。#4324

已知问题#

  • Ray + 专家并行(EP)暂时无法工作。如果您在 Ray 上运行 vLLM Ascend,请禁用专家并行。#4123

  • 目前尚不支持 response_format 参数。我们将很快提供支持。#4175

  • CPU 绑定功能在多实例情况下(如单节点多个数据并行实例)无法使用。我们将在下一个版本中修复此问题。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。

亮点#

  • CANN 已升级至 8.3.RC1。Torch-npu 已升级至 2.7.1。#3945 #3896

  • 前缀缓存(PrefixCache)和分块预填充(Chunked Prefill)默认已启用。#3967

  • 现已支持 W4A4 量化。#3427。官方教程请见 single_npu_qwen3_w4a4

核心#

  • 提升了 Qwen3 和 DeepSeek V3 系列模型的性能。

  • 现已支持 Mooncake 分层连接器 #2602。教程请见 pd_disaggregation_mooncake_multi_node

  • 现已支持多 token 预测(MTP > 1)。#2708

  • [实验性] 现已支持图模式 FULL_DECODE_ONLYFULL 模式将在未来几周内推出。#2128

  • 现已支持池化模型(如 bge-m3)。#3171

其它#

  • 重构了 MoE 模块,使其更清晰易懂,并在量化和非量化场景下均提升了性能。

  • 重构了模型注册模块以方便维护。我们将在 2025 年第四季度移除该模块。#3004

  • Torchair 已被弃用。一旦 ACL Graph 的性能达到预期,我们将移除它,截止日期为 2026 年第一季度。

  • LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。

  • 重构了线性模块,以支持 flashcomm 论文中的 flashcomm1 和 flashcomm2 特性。#3004 #3334

已知问题#

  • 在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。

  • Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。

  • 在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器的一个 bug,我们正在修复中。

  • Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为一个合适的值,例如 0.8。

  • 当启用专家并行运行 Qwen3-Next 时,请将 HCCL_BUFFSIZE 环境变量设置为合适的值,例如 1024。

  • 在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已支持 DeepSeek V3.2。#3270

  • 现已支持 Qwen3-vl。#3103

核心#

  • DeepSeek 现在可以与 aclgraph 协同工作。#2707

  • MTP 现在可以与 aclgraph 协同工作。#2932

  • 现已支持 EPLB。#2956

  • 现已支持 Mooncake 存储 KV Cache 连接器。#2913

  • 现已支持 CPU 卸载连接器。#1659

其他#

  • Qwen3-next 现已稳定。#3007

  • 修复了 v0.10.2 中由 Qwen3-next 引入的大量 bug。#2964 #2781 #3070 #3113

  • LoRA 功能现已恢复。#3044

  • Eagle3 投机解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 新增对 Qwen3-Next 的支持。请注意,此版本暂不支持专家并行和 MTP 功能,我们将很快添加相关支持。请参考 官方指南 开始使用。#2917

  • 为 aclgraph 增加了量化支持。#2841

核心#

  • Aclgraph 现在支持 Ray 后端。#2589

  • MTP 现在支持多 token(token > 1)场景。#2708

  • Qwen2.5 VL 现已支持量化。#2778

  • 提升了启用异步调度器时的性能。#2783

  • 修复了使用默认调度器时非 MLA 模型的性能回退问题。#2894

其他#

  • W8A8 量化的性能得到提升。#2275

  • MoE 模型的性能得到提升。#2689 #2842

  • 修复了应用投机解码和 aclgraph 时出现的资源限制错误。#2472

  • 修复了 Docker 镜像中的 git 配置错误。#2746

  • 修复了预填充阶段滑动窗口注意力的 bug。#2758

  • 新增了 Qwen3 预填充-解码解耦的官方文档。#2751

  • 环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已恢复生效。#2740

  • 为 DeepSeek 的 oproj 新增了一项优化。设置 oproj_tensor_parallel_size 即可启用此功能。#2167

  • 修复了设置 graph_batch_sizes 时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760

  • 避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744

  • 通过 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1VLLM_ASCEND_ENABLE_FLASHCOMM=1 即可启用。#2779

  • 通过预取功能提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 即可启用。#2816

  • 通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571

  • 修复了 RLHF 场景下的权重加载错误。#2756

  • 新增 warm_up_atb 步骤以加速推理。#2823

  • 修复了 MoE 模型在 aclgraph 模式下的流错误。#2827

已知问题#

  • 当在预填充和解码阶段使用不同的 TP 大小运行预填充-解码解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此提交来修复该问题。

  • Qwen3-Next 的 HBM 使用率高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将 max_model_lengpu_memory_utilization 设置为合适的值,以避免内存溢出错误。

  • 我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941

  • 在使用 Ascend 调度器时,请勿同时启用分块预填充和前缀缓存,否则性能和精度将不理想或不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 通过招商银行贡献的自定义内核,LoRA 性能得到大幅提升。#2325

  • 支持 Mooncake TransferEngine 用于 KV Cache 注册,并实现了 pull_blocks 样式的解耦预填充。#1568

  • 现在支持将自定义算子捕获到 aclgraph 中。#2113

核心#

  • 新增了 MLP 张量并行以提升性能,但请注意这会增加内存使用。#2120

  • openEuler 已升级至 24.03 版本。#2631

  • 新增了自定义 lmhead 张量并行,以降低内存消耗并提升 TPOT 性能。#2309

  • Qwen3 MoE 和 Qwen2.5 现在支持 torchair 图模式。#2403

  • 在 AscendScheduler 中支持滑动窗口注意力,从而修复了 Gemma3 的精度问题。#2528

其他#

  • Bug 修复:

    • 更新了图捕获大小的计算方式,在一定程度上缓解了某些场景下 NPU 流不足的问题。#2511

    • 修复了相关 bug 并重构了缓存掩码生成逻辑。#2442

    • 修复了 NZ 格式在量化场景下无法工作的问题。#2549

    • 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列模型精度问题。#2457

    • 修复了 RoPE 维度与 Head 维度不一致的模型(如 GLM4.5)的精度问题。#2601

  • 通过大量 PR 提升了性能:

    • 移除了 torch.cat 并替换为 List[0]。#2153

    • 将 GMM 的格式转换为 NZ。#2474

    • 优化了并行策略以减少通信开销。#2198

    • 优化了贪婪搜索(greedy)场景下的拒绝采样器(reject sampler)。#2137

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 MLA 相关代码。#2465

    • 重构了 torchair 的 fused_moe 部分。#2438

    • 重构了与 allgather/mc2 相关的 fused_experts 部分。#2369

    • 重构了 torchair 的模型运行器(model runner)。#2208

    • 重构了 CI(持续集成)流程。#2276

  • 参数变更:

    • additional_config 中增加了 lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309

    • 移除了若干不再使用的环境变量:HCCN_PATHPROMPT_DEVICE_IDDECODE_DEVICE_IDLLMDATADIST_COMM_PORT 以及 LLMDATADIST_SYNC_CACHE_WAIT_TIME#2448

    • 环境变量 VLLM_LLMDD_RPC_PORT 现已更名为 VLLM_ASCEND_LLMDD_RPC_PORT#2450

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120

    • 从环境变量中移除了 MOE_ALL2ALL_BUFFERVLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ#2612

    • additional_config 中增加了 enable_prefetch,用于控制是否启用权重预取。#2465

    • additional_config.torchair_graph_config 中增加了 mode 参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461

    • additional_config 中的 enable_shared_expert_dp 现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457

已知问题#

  • 滑动窗口注意力(Sliding window attention)目前不支持分块预填充(chunked prefill),因此只能配合 AscendScheduler 运行。#2729

  • 在启用多流(MultiStream)时创建 mc2_mask 存在一个 bug,将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南

请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。

亮点#

  • 已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程大规模专家并行

  • Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。

  • 支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。

  • 投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。

  • 现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南

  • V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程

  • 增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。

注意#

以下说明特别供从上一个正式版本(v0.7.3)升级时参考:

  • 从此版本起不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。

  • 此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。

  • Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。

核心#

  • 为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。

  • 结构化输出(Structured output)功能现在可以在 V1 引擎上运行。

  • 增加了一批自定义算子以提升性能。

变更#

  • Qwen3-moe 模型现已支持 EPLB。#2000

  • 修复了 MTP 在预填充-解码解耦场景下表现不佳的问题。#2610 #2554 #2531

  • 修复了若干 bug 以确保预填充-解码解耦能够正常工作。#2538 #2509 #2502

  • 修复了 torchair 模式下使用 shutil.rmtree 导致的“文件未找到”错误。#2506

已知问题#

  • 运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。

  • 此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。

  • 如果在 eager 模式下使用 w4a8 量化,请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免显存溢出(OOM)。

  • 使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654

  • 我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。

核心#

  • MTP 现在支持 V1 调度器。#2371

  • 增加了 LMhead 张量并行(TP)通信组。#1956

  • 修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478

  • 修复了由过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask 索引越界(IndexError)错误。#2314

  • 移除了 chunked_prefill_for_mla 参数。#2177

  • 修复了 bug 并重构了缓存掩码生成逻辑。#2326

  • 修复了关于 Ascend 调度器的配置检查逻辑。#2327

  • 在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368

  • 修复了 Ray 分布式后端失效的问题。#2306

  • 修复了 Ascend 调度器中错误的请求块长度。#2394

  • 修复了 RoPE 中的头文件包含问题。#2398

  • 修复了 MTP 的配置 bug。#2412

  • 修正了错误信息并适配了 attn_metadata 的重构。#2402

  • 修复了因配置不匹配及 .kv_cache_bytes 文件缺失导致的 torchair 运行错误。#2312

  • with_prefill 阶段的 allreduce 从 CPU 迁移至 NPU。#2230

文档#

  • 增加了 DeepSeek 大规模专家并行(EP)的文档。#2339

已知问题#

  • 修复了 A2 (910B1) 上开启 "full_cuda_graph": Truetest_aclgraph.py 失败的问题。#2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。

亮点#

  • 解耦预填充(Disaggregate prefill)现在已支持 V1 引擎。您可以按照此 教程 在 DeepSeek 模型上进行尝试。#950

  • Dense 和 MoE 模型现在已支持 W4A8 量化方法。#2060 #2172

核心#

  • Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724#1562。CANN 已升级至 8.2.RC1#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。

  • vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582

  • vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162

  • V1 引擎现已支持流水线并行(Pipeline Parallelism)。#1800

  • 前缀缓存(Prefix cache)功能现在可与 Ascend 调度器协同工作。#1446

  • Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508

  • MTP 现在支持 torchair 图模式。#2145

其他#

  • Bug 修复:

    • 修复了 Qwen2-audio 等多模态模型在 Aclgraph 模式下的功能问题。#1803

    • 修复了外部启动场景下进程组创建错误的问题。#1681

    • 修复了引导式解码(guided decoding)的功能问题。#2022

    • 修复了数据并行(DP)场景下常见 MoE 模型的精度问题。#1856

  • 通过大量 PR 提升了性能:

    • 将 sin/cos 进行缓存,而非在每一层都重新计算。#1890

    • 改进了共享专家(shared expert)的多流并行性。#1891

    • 实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1 可启用此特性。#1926

    • 通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195

    • 在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806

    • 使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555

    • 提升了 LoRA 的性能。#1884

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 Torchair 模型运行器(model runner)。#2205

    • 重构了 forward_context 和 model_runner_v1。#1979

    • 重构了 AscendMetaData 的注释。#1967

    • 重构了 torchair 工具类(utils)。#1892

    • 重构了 torchair 工作进程(worker)。#1885

    • 通过注册激活自定义算子代替重写 forward_oot。#1841

  • 参数变更:

    • additional_config 中的 expert_tensor_parallel_size 现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681

    • 增加了环境变量 VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用 MatmulAllReduce 融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。

  • 在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。

  • 序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209

  • 现已增加中文在线文档。#1870

已知问题#

  • 目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229

  • 在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232

  • 在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246

  • MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254

  • 当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录器(metrics logger)。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • MoE 和 Dense 模型现已支持 w4a8 量化:#1320 #1910 #1275 #1480

  • #1943 中增加了对动态 EPLB 的支持。

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)并进行了改进。持续对解耦预填充特性进行开发和稳定化处理,包括单机环境下的性能提升和 bug 修复:#1953 #1612 #1361 #1746 #1552 #1801 #2083 #1989

模型改进#

图模式改进#

  • #1269 中修复了 DeepSeek 与 mc2 配合使用的问题。

  • #1332 中修复了 DeepSeek V3/R1 模型在使用 TorchAir 图模式进行长序列预测时的精度问题。

  • #1570 中修复了 torchair_graph_batch_sizes 错误。

  • #1404 中为 TorchAir 图模式启用了 tp <= 4 的限制。

  • 修复 RoPE 精度错误 #1887

  • 在 FusedMoE 中支持共享专家的多流处理 #997

  • 在 TorchAir 图模式的解码过程中启用 kvcache_nz #1098

  • 修复 TorchAir 下的分块预填充场景,解决 #1378 中的 UnboundLocalError: local variable 'decode_hs_or_q_c' 问题。

  • #1561 中提升了 w8a8 动态量化下共享专家的多流性能。

  • 修复设置多流时的 MoE 错误 #1882

  • 在 EP 场景下将图批次大小向上取整至 TP 大小的倍数 #1610

  • 修复启用 DP 时的 TorchAir 错误 #1727

  • torchair_graph_config 添加额外检查 #1675

  • 修复 TorchAir + 分块预填充场景下的 RoPE 错误 #1693

  • 修复 chunked_prefill 为 true 时的 torchair_graph 错误 #1748

  • 改进预填充优化以支持 TorchAir 图模式 #2090

  • 修复 DP 场景下的 rank 设置问题 #1247

  • 重置所有未使用的位置以防止越界,从而解决 GatherV3 错误 #1397

  • 移除 ModelRunner 中重复的多模态代码 #1393

  • 修复块表形状以解决精度问题 #1297

  • 在受限场景下实现初步的全图模式 #1503

  • 为提升性能,在全图模式中恢复分页注意力内核 #1677

  • 修复极端 --gpu-memory-utilization 设置下的 DeepSeek OOM 问题 #1829

  • 在启用 TorchAir 时关闭 aclgraph #2154

算子改进#

  • 新增自定义 AscendC 内核 vocabparallelembedding #796

  • 修复了 RoPE sin/cos 缓存错误 #1267

  • 重构了 AscendFusedMoE (#1229) #1264

  • 在采样器中使用了融合算子 npu_top_k_top_p #1920

核心#

  • 将 CANN 升级至 8.2.rc1 #2036

  • 将 torch-npu 升级至 2.5.1.post1 #2135

  • 将 Python 升级至 3.11 #2136

  • 禁用了 mindie_turbo 中的量化 #1749

  • 修复了 V0 投机解码 #1323

  • 仅在使用 V0 投机解码时直接启用 ACL_OP_INIT_MODE=1 #1271

  • 重构了 forward_contextmodel_runner_v1 #1422

  • 修复了采样参数 #1423

  • 增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ #1409

  • 修复了 ascend_forward_context 中的错误 #1449 #1554 #1598

  • 通过处理 PrefillCacheHit 状态修复了前缀缓存精度错误 #1492

  • 修复了权重加载错误并增加了新的端到端测试用例 #1651

  • 优化了 DeepSeek 中与 RoPE 相关的索引选择次数 #1614

  • 增加了 mc2 掩码 #1642

  • 修复了静态 EPLB 的 log2phy 条件并改进了单元测试 #1667 #1896 #2003

  • 为预填充增加了分块 mc2 #1703

  • 修复了 mc2 算子的 GroupCoordinator 错误 #1711

  • 修复了无法识别实际量化类型的问题 #1721

  • 修复了 DeepSeek 在 tp_size == 1 时的错误 #1755

  • 增加了预填充节点对无延迟块的支持 #1691

  • 针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO #1547

  • 适配了 dispatchV2 接口 #1822

  • 修复了解耦预填充在长输出时的挂起问题 #1807

  • 修复了 V0 引擎下的 flashcomm_v1 问题 #1859

  • 修复了某些情况下 ep_group 不等于 word_size 的问题 #1862

  • 修复了 wheel 包 glibc 版本不兼容的问题 #1808

  • 修复了 mc2 进程组以解决 self.cpu_group 为 None 的问题 #1831

  • 将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查 #1904

  • 为 MoE 应用了 npu_moe_gating_top_k_softmax 以提升性能 #1902

  • 修复了 V0 引擎下 path_decorator 的 bug #1919

  • 避免了在解耦预填充场景下执行 CPU all_reduce #1644

  • 为解码阶段的 MoE 增加了 super kernel #1916

  • [预填充性能] 并行策略优化(显存换速度的权衡) #1802

  • 移除了 shared_experts.down_proj 中不必要的 reduce_results 访问 #2016

  • 通过向量化优化了 greedy reject 采样器 #2002

  • 实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode) #1936

  • 修复了 DeepSeek 模型在启用 tp > 1 和 multistream_moe 时,共享专家与路由专家之间的形状冲突问题 #2075

  • 增加了 CPU 绑定支持 #2031

  • #2129 中增加了 with_prefill CPU allreduce 以处理 D 节点的重计算。

  • #2038 中增加了 D2H 和 initRoutingQuantV2 以提升预填充性能。

文档#

  • 提供了执行时长分析(duration profiling)的端到端指南。#1113

  • 为 CANN 软件包下载链接添加了 Referer 请求头。#1192

  • 增加了重新安装说明文档。#1370

  • 更新了解耦预填充(Disaggregate prefill)的 README。#1379

  • 针对 KV Cache 注册方式实现了解耦预填充。#1296

  • #1965 中修复了 examples/disaggregate_prefill_v1/README.md 中的错误和不规范之处。

已知问题#

  • 在开启 full_cuda_graph 启用时,某些特定硬件类型尚不支持全图模式。#2182

  • Qwen3 MoE 在启用 EP 时,由于 bincount 错误导致带 TP 的 aclgraph 模式失败。#2226

  • 正如 v0.9.1rc1 发布说明中所提到的,此版本将不包含对 Atlas 300I 系列的支持。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。

亮点#

  • Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359

  • Atlas 300I 系列的性能已经提升。 #1591

  • aclgraph 模式现在可以与 Moe 模型一起使用。目前,仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347

  • GatherV3 错误已在 aclgraph 模式下修复。#1416

  • W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560

  • 修复了使用并行参数部署模型时的准确性问题。#1678

  • 预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

  • 官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。

  • 修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331

  • 新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为 0#1335

  • 新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732

  • 已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478

  • DeepSeek 的性能已得到提升:#1194 #1395 #1380

  • Ascend 调度器现在支持前缀缓存。#1446

  • DeepSeek 现在支持前缀缓存了。#1498

  • 在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483

已知问题#

新贡献者#

完整更新日志: vllm-project/vllm-ascend

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

实验性功能#

  • 本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333

  • 支持 EAGLE-3 进行推测式解码。#1032

经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235

  • 支持 Atlas 300I 系列的容器镜像。您可以从 quay.io 获取。

  • 修复了按 token 填充的机制,以使多卡图模式正常工作。#1300

  • 将 vLLM 升级到 0.9.1 #1165

其他改进#

  • 为 MLA 初步支持分块预填充(Chunked Prefill)。#1172

  • 新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101

  • 提升了 DeepSeek 在使用 TorchAir 图模式时的性能。#1098, #1131

  • 支持在 AscendScheduler 中使用推测式解码功能。#943

  • 提升了 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796

  • 修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884

  • DeepSeek 现在可以与 MC2(计算通信融合)正常配合工作。#1268

  • 修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186

  • 提升了启用 DBO 时 DeepSeek 的性能。#997, #1135

  • 重构 AscendFusedMoE #1229

  • 新增初始用户故事页面(包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224

  • 新增单元测试框架 #1201

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在处理此问题,并将在下一个版本中修复。#1038

  • 在未启用分块预填充的情况下,前缀缓存功能无法与 Ascend 调度器配合使用。此问题将在下一个版本中修复。#1350

完整更新日志#

vllm-project/vllm-ascend

新贡献者#

完整更新日志: vllm-project/vllm-ascend

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。

亮点#

  • 修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。

亮点#

  • DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789

  • Qwen 系列模型现在支持图模式,且在 V1 引擎中默认启用。请注意,在本次发布中,仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中提升其稳定性并使其更通用。如果您遇到任何问题,请随时在 GitHub 上提交 issue,并在初始化模型时通过设置 enforce_eager=True 临时回退到 eager 模式。

核心#

  • 多步调度器(multi-step scheduler)的性能已得到提升。感谢招商银行的贡献。#814

  • V1 引擎现在支持 LoRA、多 LoRA(Multi-LoRA)以及动态服务。感谢招商银行的贡献。#893

  • 前缀缓存(Prefix cache)和分块预填充(chunked prefill)功能现已可用。#782 #844

  • 推测解码(Spec decode)和 MTP 功能现在已支持 V1 引擎。#874 #890

  • 数据并行(DP)功能现在支持 DeepSeek 模型。#1012

  • 输入嵌入(Input embedding)特性现在已支持 V0 引擎。#916

  • 休眠模式(Sleep mode)功能现在已支持 V1 引擎。#1084

模型#

  • Qwen2.5 VL 现在支持 V1 引擎。#736

  • Llama4 模型现在已支持。#740

  • 新增了一种名为双批次重叠(dual-batch overlap, DBO)的 DeepSeek 模型支持。请设置 VLLM_ASCEND_ENABLE_DBO=1 来使用它。#941

其他#

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理此问题,并将在下一版本中修复。

  • 多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包含以下更改:

亮点#

  • 现已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已通过充分测试,欢迎试用。推荐使用 MindIE Turbo 以提升 Qwen3 的性能。#903 #915

  • 新增了性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能,包括操作系统配置、库优化、部署指南等。#878 文档链接

漏洞修复#

  • Qwen2.5-VL 现已支持 RLHF 场景。#928

  • 用户现在可以直接通过在线权重启动模型,例如直接从 HuggingFace 或 ModelScope 加载。#858 #918

  • 已清理无意义的日志信息 UserWorkspaceSize0#911

  • Failed to import vllm_ascend_C 的日志级别已由 error 更改为 warning#956

  • DeepSeek MLA 现已在 V1 引擎中支持分块预填充(Chunked Prefill)。请注意,0.7.3 中的 V1 引擎仍处于实验阶段,仅供测试使用。#849 #936

文档#

  • 基准测试文档已针对 Qwen2.5 和 Qwen2.5-VL 完成更新。#792

  • 添加了说明,明确只有 modelscope<1.23.0 版本能与 0.7.3 兼容。#954

v0.7.3 - 2025.05.08#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。

亮点#

  • 本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1v0.7.3rc1v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵模型支持矩阵

  • 将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。

  • 将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662

  • 将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708

核心#

  • 现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700

模型#

  • 提升了 Qwen2 VL 和 Qwen2.5 VL 的性能。#702

  • 优化了 apply_penaltiestopKtopP 算子的性能。#525

其他#

  • 修复了可能导致 CPU 内存泄漏的问题。#691#712

  • 新增了环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到 SOC 检测错误,请将 SOC_VERSION 设置为合适的值。#606

  • 支持 openEuler 容器镜像,标签为 v0.7.3-openeuler#665

  • 前缀缓存功能现已在 V1 引擎上可用。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵

亮点#

  • 将 CANN 升级至 8.1.RC1,以支持在启用 V1 引擎时的分块预填充和自动前缀缓存(--enable_prefix_caching)。#747

  • 优化了 Qwen2 VL 和 Qwen 2.5 VL。#701

  • 提升了 DeepSeek V3 的 Eager 模式和图模式性能,您现在可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。 #598 #719

核心#

  • 将 vLLM 升级到 0.8.5.post1。#715

  • 修复了在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题。#682

  • 适配了由 modelslim 生成的新量化模型。#719

  • 初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694

  • 使用 /vllm-workspace 作为代码路径,并在容器镜像中包含 .git 目录,以修复在 /workspace 下启动 vLLM 时的问题。#726

  • 优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728

  • 修复了 setup.pyPYTHON_INCLUDE_PATH 的拼写错误。#762

其他#

  • 添加了 Qwen3-0.6B 测试。#717

  • 添加了每晚持续集成(Nightly CI)。#668

  • 添加了精度测试报告。#542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。

亮点#

  • 现已支持 Qwen3 和 Qwen3MOE。请参考官方文档运行快速示例。#709

  • 现已支持 Ascend W8A8 量化方法。详情请参考官方文档示例。欢迎提供任何反馈#580

  • DeepSeek V3/R1 现已支持数据并行(DP)、张量并行(TP)和多令牌预测(MTP)。请注意,此功能仍处于实验阶段。如遇任何问题,请告知我们。#429 #585 #626 #636 #671

核心#

  • V1 引擎现已支持 ACLGraph 特性。由于该特性依赖 CANN 8.1 版本,目前默认禁用。我们将在下一个版本中默认启用此特性。#426

  • 已将 PyTorch 升级至 2.5.1。vLLM Ascend 不再依赖 torch-npu 的开发版本。用户现在无需手动安装 torch-npu,2.5.1 版本的 torch-npu 将自动安装。#661

其他#

  • MiniCPM 模型现已支持。#645

  • 现已支持带有 v0.8.4-openeuler 标签的 openEuler 容器镜像,并且在 openEuler 操作系统上默认启用自定义算子构建。#689

  • 修复了导致 LoRA 无法运行的 ModuleNotFoundError 错误。#600

  • 新增了“使用 EvalScope 进行评估”的文档。#611

  • 新增 VLLM_VERSION 环境变量,使 vLLM 版本可配置,便于开发者在本地手动修改 vLLM 代码后设置正确的版本号。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策

亮点#

  • 本版本包含对 vLLM V1 引擎的实验性支持。更多详情请访问官方指南。默认情况下,若 V1 无法运行,vLLM 会自动回退到 V0;若需强制使用 V1,请设置环境变量 VLLM_USE_V1=1

  • 现已支持 LoRA、多 LoRA(Multi-LoRA)及动态服务(Dynamic Serving)。性能将在下个版本优化。用法详见官方文档。感谢招商银行的贡献。#521.

  • 支持休眠模式(Sleep Mode)。目前仅支持 V0 引擎,V1 引擎的支持即将推出。#513

核心#

  • 为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543

  • 支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南#432

  • 推测解码(Speculative Decoding)功能现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500

  • 结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555

其他#

  • 新增了通信器 pyhccl,用于直接调用 CANN HCCL 库而非通过 torch.distribute。更多用法将在下个版本加入。#503

  • 默认启用自定义算子构建。从源码编译 vllm-ascend 前请确保已安装 gcccmake 等包。如无需编译算子,可设置环境变量 COMPILE_CUSTOM_KERNELS=0#466

  • 自定义算子 rotary embedding 现已默认启用以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。

亮点#

  • 新增 Ascend 自定义算子框架,开发者现在可以使用 AscendC 编写自定义算子。已添加示例算子 rotary_embedding,更多教程即将推出。默认安装时不编译自定义算子,可设置 COMPILE_CUSTOM_KERNELS=1 启用。#371

  • 本版本提供了 V1 引擎的基础支持,完整支持将在 0.8.X 版本完成。若您遇到任何问题或有任何 V1 引擎的需求,请在此问题中告知我们。#376

  • 前缀缓存功能现已可用。您可以通过设置 enable_prefix_caching=True 启用它。#282

核心#

  • 将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出 !!! 的问题。#406

模型#

  • 通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398

其他#

  • 修复了一个错误以确保多步调度器功能正常工作。#349

  • 修复了一个错误以确保前缀缓存功能在正确的精度下工作。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。

亮点#

  • DeepSeek V3/R1 现已能够良好运行。请参阅官方指南开始使用!#242

  • 支持推测解码功能。#252

  • 支持多步调度器功能。#300

核心#

  • 将 torch_npu 版本升级至 dev20250308.3 以提升 _exponential 的精度。

  • 新增对池化模型的初步支持。基于 BERT 的模型,例如 BAAI/bge-base-en-v1.5BAAI/bge-reranker-v2-m3 现已可用。#229

模型#

  • 提升了 Qwen2-VL 的性能。#241

  • 现已支持 MiniCPM 模型。#164

其他#

  • 为 DeepSeek V3/R1 提供多令牌预测(MTP)支持。#236

  • 【文档】新增了更多模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档

  • 在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决:vllm-project/vllm#13807

已知问题#

  • 某些情况下,尤其是当输入/输出非常长时,输出精度可能不正确。我们正在处理此问题,将在下一个版本中修复。

  • 改进并减少了模型输出中的乱码。但如果您仍然遇到此问题,请尝试更改生成配置值,例如 temperature,然后重试。下方还有一个已知问题。欢迎提供任何反馈#277

v0.7.1rc1 - 2025.02.19#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。

vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能与改进。

请遵循官方文档开始您的旅程。请注意,这是一个候选发布版本,可能存在一些错误或问题。我们感谢您的反馈和建议,请通过此问题提交。

亮点#

  • 在 vLLM 上提供对 Ascend NPU 的初步支持。#3

  • 现已支持 DeepSeek 模型。#88 #68

  • 同时支持 Qwen、Llama 系列及其他流行模型,您可以在 supported_models 中查看更多详情。

核心#

  • 新增了 Ascend 量化配置选项,具体实现即将推出。#7 #73

  • 添加了 silu_and_mul 和 rope 算子,并将混合算子集成到注意力层中。#18

其他#

  • 【CI】启用 Ascend CI 以主动监控并提升 vLLM 在 Ascend 上的质量。#3

  • 【Docker】新增 vllm-ascend 容器镜像。#64

  • 【文档】新增了在线文档#55

已知问题#

  • 本版本依赖于一个尚未正式发布的 torch_npu 版本,该版本已预装在官方容器镜像中。若您在非容器环境下运行,请手动安装

  • 运行 vllm-ascend 时可能会出现类似 No platform detected, vLLM is running on UnspecifiedPlatformFailed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'") 的日志。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。

  • 运行 vllm-ascend 时可能会出现类似 # CPU blocks: 35064, # CPU blocks: 2730 的日志,其本应显示为 # NPU blocks:。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。