版本说明

目录

版本说明#

v0.20.2rc1 - 2026.06.03#

We're excited to announce the release of v0.20.2rc1 for vLLM Ascend. This is the first release candidate for the v0.20.2 release line. Please follow the official doc to get started.

亮点#

  • DeepSeek V4 Support: Added end-to-end support for DeepSeek V4, including the model architecture, DSA attention backend, KV cache management, distributed inference, tool-call parser, MTP support, KV Pool adaptation, and custom operator enablement. #9270 #9385 #9228

  • A5 and XLite Quantization Expansion: Added MXFP4 flatquant with row parallelism for Ascend A5 and expanded XLite support to GLM-4.7 W8A8 quantization. #9391 #9415

功能#

  • Added Flash Attention 3 support for training-inference consistency. The backend is ready in vLLM Ascend and will become directly usable once the FA3 package is publicly available. #9060

  • Added DeepSeek PCP/DCP adaptation to improve support for disaggregated deployments. #9058

  • Added a dedicated additional_config.enable_dsa_cp switch to decouple DSA-CP from FC1. DSA-CP now requires both FC1 and DSA-CP to be explicitly enabled, allowing FC1 to stay enabled while DSA-CP is disabled when needed. #9878

  • Added merged graph support for DFlash workloads. #9074

  • Added LoRA support for Qwen3.5 dense models. #9023

  • Added KV pool adaptation for DeepSeek V4 and separated MTP-layer KV cache sharding for DeepSeek V4 speculative decoding. #9385 #9367

硬件与算子支持#

  • Added DeepSeek V4 custom operators required for the new model path, registered the operators for Ascend 910B, and switched the DeepSeek V4 hc_pre path to a fused operator. #9228 #9339 #9396

  • Enabled MXFP4 flatquant and row parallel support on Ascend A5. #9391

  • Enabled MC2 dispatch and combine support for MXFP4/MXFP8 quantization on Ascend A5. #9365 #9328

  • Improved 310P support by optimizing fused operators for Qwen3.5 Dense ACLGraph and simplifying the 310P RMSNormGated path. #9104 #9489

性能#

  • Added DeepSeek V4 DSA multistream overlap optimizations across compressor, indexer-select, CV parallel, and pure-prefill compute-communication overlap paths. #9450 #9441 #9433 #9504

  • Reused DSA topk_indices across decode steps with IndexCache to reduce repeated DeepSeek V4 index computation. #9390

  • Fixed the missing enablement for cv_indexer_qkv_prepare multistream parallelism in the new overlap path. #9530

  • Reduced host-device synchronization overhead by removing the sync point in PIECEWISE mode. #9025

  • Optimized shared expert overlap timing in FusedMoE. #9413

  • [Experimental] Added reduce sampling with enable_reduce_sample to lower Tensor Parallel communication overhead in distributed greedy, top-k/top-p, and rejection sampling paths. #8308

Stability and Bug Fixes#

  • Fixed DeepSeek V4 MTP, serial inference, FlashComm, A2 tensor-output all-reduce, and P/D disaggregation KV cache edge cases. #9456 #9487 #9488 #9389 #9500

  • Fixed DeepSeek V4 hc_pre behavior and added a 4-card E2E regression test. #9452

依赖项#

  • Upgraded the matched upstream vLLM baseline to v0.20.2. #9270

  • Upgraded CANN to 9.0.0 and triton-ascend to 3.2.1. #9085

  • Upgraded PyTorch and torch-npu to 2.10.0. #9128

Breaking Changes and Migration Notes#

  • Migrated a set of runtime options from environment variables to AscendConfig, including the FC1/FlashComm1 switch from VLLM_ASCEND_ENABLE_FLASHCOMM1 to additional_config.enable_flashcomm1. Please review configuration code and deployment manifests when upgrading. #9064

  • Disabled SwiGLU clamp by default, which may slightly change behavior for workloads that previously relied on the old default. #9438

文档#

  • Refreshed deployment and feature documentation for the current main branch release line. #9309 #8968

  • Added documentation for the enable_dsa_cp additional configuration option for DeepSeek V3.2 and GLM5. #9910

已知问题#

  • GLM5/GLM5.1 W4A8 deployments have known issues in some advanced configurations. CANN 9.0 with MC2 can return inaccurate output, FlashComm can fail during model startup, and MTP weight loading can fail in 1P1D A3 deployments. #9395 #9658 #9655

  • GLM-5.1 deployments can hit MoeDistributeDispatchV2/NPU graph failures when Expert Parallel is used together with FULL graph mode. The reported workaround is to disable Expert Parallel for FULL graph mode, or use PIECEWISE/eager mode. #9503

  • 310P does not currently support runner_type='pooling'; starting pooling models on 310P raises NotImplementedError. #9593

  • Qwen3.6-35B-A3B may shut down when MTP/speculative decoding is enabled, with numAcceptedTokens[0]=4 exceeds varlen segment length=3 reported during shape/dtype processing. #9956

  • GLM-5.1 can hang on the P node in 200K long-sequence 1P1D agent workloads after long-running service, with MoeDistributeDispatchV2/aclnnMoeDistributeDispatchV4 reporting an AICore timeout. #9958

  • GLM5 W4A8 deployments can see a significantly lower speculative decoding acceptance rate when MTP3 is used together with FlashComm. #9803

  • MiniMax-M2.7 W8A8/QuaRot can show lower-than-expected GPQA accuracy in long-sequence deployments when PCP/DCP is combined with Eagle3 speculative decoding. #9959

v0.18.0 - 2026.04.30#

我们很高兴地宣布 vLLM Ascend v0.18.0 正式发布。这是 v0.18.0 的正式版本。请按照 官方文档 开始使用。

亮点#

模型支持

  • Kimi-K2.x 模型支持:[实验性]添加了对 Kimi-K2.x 模型的支持。@aipaes @dragondream-chen @SparrowMu @LoganJane #6755

  • Minimax-m2.x 模型支持:[实验性]添加了对 Minimax-m2.x 模型的支持,支持 eagle3。@SparrowMu @GDzhu01 #7105 #7714

  • GLM5 支持:[实验性]无需任何代码修改即可支持 GLM5 模型!

  • Qwen3.x 支持:[实验性]无需任何代码修改即可支持 Qwen3.x 模型!

  • DeepseekOCR 支持:[实验性]添加了对 DeepseekOCR 模型的支持,并优化了 RelPosAttentionCustomQwen2Decoder。@Wangbei25 #7737

核心功能

  • EPLB(专家并行负载均衡):EPLB 经过大量 bug 修复后更加稳定,性能也得到提升。EPLB 现在在大多数情况下都能正常工作,推荐使用。#6528 #7344 #7890 #6477

  • ACLGraph 增强:ACLGraph 现在支持为多步草稿捕获单个合并图,大大减少了多步推测解码场景中的 host bound!#5553 #5940

  • KV 池化:增强的 KV 池与 Mooncake 连接器现在支持稀疏注意力,LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案被添加,支持 HIXL 互联的 FabricMem 模式,支持 yuanrong 作为 AscendStoreConnector 的后端,并且 MooncakeLayerwiseConnector 现在可以与 KV 池化一起激活。与之前的版本相比,KV 池化在 TTFT 上实现了巨大的性能优化!#6339 #6882 #6806 #6869 #7032

  • PD 分离:Mooncake layerwise 连接器现在支持混合注意力管理器和 PCP 功能。#7022 #6627

  • NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006

  • RL(强化学习):[实验性]通过 AscendC 和 triton op 实现了批量不变性功能,增强了 RL,并添加了路由重放功能。#6590 #6696

  • CPU 绑定默认启用:启用了仅 ARM CPU 绑定,采用全局切片 A3 策略,提高了 hostbound 场景中的推理吞吐量。#6686

功能#

  • 混合模型现已支持前缀缓存。#7103

  • Flash Comm V1 现已支持使用 MLA 的 VL 模型,移除了之前对多模态服务的一个限制。#7390

  • VL MoE 模型现在支持 SP,并且移除了 sp_threshold,转而采用 vLLM 的 sp_min_token_num#7044

  • [实验性]流水线并行现在支持异步调度,提高了 PP 部署的吞吐量。#7136

  • Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038

  • 重构 eagle3/mtp,eagle3 和 mtp 现在使用相同的 proposer。#6349 #7033

硬件与算子支持#

  • 首次支持 310P,并进行了巨大的性能优化!

    • 支持 W8A8 量化。#6641 #6454

    • 支持 weightNZ 特性,支持量化或非量化权重。#6705

    • 支持 W8A8SC 量化方法。#7075

    • 修复图模式下后采样不工作问题。#8077

    • 为 300I DUO 新增 addrmsnorm 支持。#6704

    • 修复了 310P 上 ngram 图重放的精度错误。#7134

  • 自定义算子:添加了多个自定义算子,包括:

    • 为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661

    • 新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725

    • 为 MoE 模型新增了 GMM 自定义算子。#7010

    • 优化了 split_qkv_rmsnorm_rope 算子。#6827

    • Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450

    • 新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366

    • 优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707

    • 重构并优化了 CausalConv1d。#7495

性能#

  • 初始化性能:优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645

  • Qwen3.x 性能:[实验性]通过支持全图模式、PD 分离、mamba prefill 前缀缓存和 flashcomm1、预构建 chunk 元数据以减少主机-设备同步开销,以及多项算子性能优化(包括 chunk_gated_delta_rulechunk_fwd_kernel_osolve_trilrecompute_w_u_fwd_kernelsplit_qkv_rmsnorm_mrope 等),优化了 Qwen3.x 和 Qwen3-Next 的性能。@LoganJane @shaopeng-666 @ppppeng @SunnyLee151064 @hust17yixuan @Toneymiller @linfeng-yuan #7487 #6830 #7506 #7796 #7527 #7529 #7495 #7368

  • Kimi-K2.x 性能:[实验性]通过支持 eagle3 和 flashcomm1,并减少 d2h 开销,优化了 Kimi-K2.x 的性能。@aipaes @dragondream-chen @SparrowMu @LoganJane @GDzhu01 @Yaphets24 @hust17yixuan #7342 #7390 #7521

  • Qwen3-VL 性能:Qwen3-VL 通过 Flash Comm V1 和 qkv_rmsnorm_mrope 支持获得了更强的多模态算子能力,并通过 aclnn BatchMatMulV2 使卷积计算速度提升 2.7 倍,支持 EAGLE 推测解码。#7893 #7852 #7017 #6327

  • Qwen3-Omni 性能:现已提供 Qwen3-Omni 量化适配和优化。#6828

  • DeepSeek-V3.2/GLM5 性能:性能优化,支持 W8A8C8 量化,并优化了 KV cache 使用。@yydyzr @ZYang6263 @rjg-lyh @Nagisa125 #7029 #6610

  • GLM4.7-Flash 性能:为 GLM4.7-Flash 新增 W8A8 量化支持。@aipaes #6492

依赖项#

${PYTHON_TAG} 是 Python 版本标签,${ARCH} 是 CPU 架构。

For example: python3.11 and aarch64, ${PYTHON_TAG}=cp311, ${ARCH}=aarch64.

弃用与重大变更#

  • 清理并弃用了 ProfileExecuteDuration 功能。#6461

  • 移除了自定义 rotary_embedding 算子。#6523

  • 清理了未使用的环境变量 USE_OPTIMIZED_MODEL#6618

  • 配置选项 enable_flash_comm_v1 已重命名回 enable_sp#6883

文档#

  • 新增了 MiniMax-M2.5 和 MiniMax-M2.7 的介绍。#8169

  • 在常见问题解答中添加了抢占指导。#8136

  • 更新了 GLM5 的部署和支持文档,包括参数描述、最佳实践和常见问题解答。#7963 #7909

  • 更新了 Qwen3.5 用户指南。#7934

  • 更新了 DeepSeek-V3.2 的文档配置。#7970

  • 清理了文档的措辞和语法。#8073

  • 更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300

  • 新增了 CPU 绑定的用户/开发者指南。#7045

  • 新增了 Memcache 使用指南。#6476

  • 新增了后缀推测解码的基准测试教程。#6323

  • 新增了 npugraph_ex 介绍文档。#6306

其他#

  • 为捕获模式添加了异步通信检查。#8149

  • 修复了池化场景之间的 KV Pool 冲突,并修复了 vLLM v0.18.0 上缺失的 KV 缓存放置问题。#8101 #7874

  • 通过修正注意力状态处理,修复了短提示转发问题。#8088

  • 为均匀令牌分发恢复了 global_bs=0mc2_mask,并支持跨节点 RoCE 分层 MC2 通信。#8040

  • 修复了 Qwen3-VL 的权重映射器错误。#7868

  • 通过将反向映射改为前向映射,修复了 AscendModelSlimConfig 中的量化配置键映射。#7716

  • 修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472

  • 分层连接器现在支持重计算调度器。#5900

  • 修复了池化代码问题并更新了使用指南。#6126

  • NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968

已知问题#

  • 目前,在多 DP 和大令牌数场景(kv_producerkv_both)下,不推荐使用 VLLM_ASCEND_ENABLE_FUSED_MC2。此场景可能会在 DP 间产生大量填充令牌,这些令牌将被路由到某些专家,导致某些 rank 接收令牌过载,从而引发精度和性能问题。#8320

  • 目前,EPLB 不支持 minimax_m2 模型和 W4A8 量化。#8341

  • 当预填充请求的调度令牌数小于 1 + num_speculative_tokens 时,PCP 和 eagle3 叠加可能会产生错误,这将导致该预填充请求被当作解码请求处理,从而引发错误。#8402

  • 不支持 NPU 软分区 + CUDAGraphMode.PIECEWISE#8585

  • Qwen3.x 在 PD 解耦场景下存在精度问题。#8421

  • 当前在 x86 架构上存在一个已知问题,该问题已在 CANN 9.0.0 中解决。若要在 x86 上部署 vllm-ascend,请手动升级 CANN 版本。#7993

  • P/D 代理在重算重试后可能泄漏资源并掩盖 metaserver 错误。#8852

  • 通过 PD 架构分别部署 GLM5 和 Deepseek V3.2 时,存在概率性输出为空或乱码的问题。#8853

  • 对于 PD 分离下 D 节点配置为 TP16 DP2 并行的 GLM 5/5.1,GPQA 精度未达到标准。#8844

v0.19.1rc1 - 2026.04.30#

这是基于 vLLM v0.19.1 的 vLLM Ascend v0.19.1 首个候选发布版本。此版本包含显著的性能优化、新模型支持、硬件扩展以及重要的错误修复。

请按照官方文档开始使用。

亮点#

  • DFlash Attention 后端:新增 DFlash attention 后端,支持 FULL_DECODE_ONLY 模式以提升推理性能。(#8118, #8516, #8627)

  • 零气泡异步调度:为异步调度和推测解码实现了零气泡优化,显著降低了调度开销。(#7640)

  • A2/A3 注意力算子升级:将 npu_fusion_attention 替换为 _npu_flash_attention_unpad 算子,以在 A2 和 A3 硬件上获得更佳性能。(#8671)

  • Eagle3 + MiniMax-M2.5 支持:将 Eagle3 推测解码应用于 MiniMax-M2.5 模型,实现更快的推理。(#7619)

  • GQA 的 C8 INT8 KV 缓存:为 GQA 注意力模型添加了 C8(INT8 KV 缓存)支持,包括支持 PD 解耦的 DeepSeek-V3.1。(#7474, #7222)

  • Bailing 模型支持:全面支持 Bailing MoE 模型,包括线性适配和 ModelSlim 量化。(#8657, #8709)

功能#

  • Qwen3-VL 的 Flash Comm V1:为 Qwen3-VL 多模态模型支持 Flash Comm V1。(#7897)

  • Eagle + PCP + 全图模式:支持 Eagle 与 PCP 及全图模式的组合。(#7924)

  • PCP 下的多模态推理:启用预填充上下文并行功能时支持多模态推理。(#8038)

  • PP 的动态分块:为分块流水线并行支持动态分块。(#7896)

  • 基于汉明距离的稀疏注意力:新增基于汉明距离的稀疏注意力推理框架和算子。(#8564, #8346)

  • 优化的因果 Conv1d 算子:新增优化的因果 conv1d 算子。(#8215)

  • 循环 AscendC 算子:为特定模型架构新增循环 AscendC 算子。(#8055)

  • GLM4.7 C8 支持:支持 GLM4.7 的 C8(INT8 KV 缓存)场景。(#8174)

  • Minitron-8B-Base 支持:验证并支持 nvidia/Minitron-8B-Base 模型。(#8157)

  • Bailing 模型支持:全面支持 Bailing MoE 模型,包含线性适配和 ModelSlim 量化配置。(#8657, #8709)

  • Qwen3.5 MoE Flash Comm:为 Qwen3.5 MoE 模型支持 Flash Comm。(#7486)

  • MRv2 的初始 MoE 支持:为 Model Runner V2 添加初始 MoE 模型支持。(#7922)

  • Xlite 后端扩展

    • XLite GLM-4.7 支持。(#7935)

    • 在 xlite 后端支持 Qwen3VLMoeForConditionalGeneration。(#8046)

  • EPLB 增强

    • Swift 均衡器策略支持混合放置。(#8035)

    • EPLB 适配多模态模型。(#7743)

  • model_runner_v2 的 Eagle 改进

    • 修复了图模式下 Eagle 的接受率问题。(#8365)

    • 修复了 Eagle 的精度问题 (#8230, #8033)

    • 使 Eagle 适配 model_runner_v2 (#7885)

  • MTP 合并图:支持 MTP(多令牌预测)的合并图 (#6860)

  • 统一 MoE 专家放置:支持共享专家和路由专家的统一放置 (#7188)

  • Dispatch V2 层级通信:支持 dispatch_v2/combine_v2 层级通信以提升 MoE 性能 (#7583)

  • Dispatch FFN Combine 的 Xmask:为 dispatch_ffn_combine 算子添加 xmask 功能(w8a8 分支)(#8560)

  • 融合 W4A8 内核:将 W4A8 dispatch + FFN + combine 融合为单个内核 (#7779)

  • KV 缓存内存核算:在 KV 缓存规划中考虑图捕获内存 (#8289)

  • Qwen3-Next 混合注意力:支持 piecewise 和 full_decode_only 模式下的 Qwen3-next 混合注意力 (#7422)

  • GDN 优化:优化 GDN 非推测预填充回退元数据 (#7756)

  • Qwen3-VL 支持:为 Qwen3-VL 支持 kv_rmsnorm_mrope (#7762)

  • Mamba 前缀缓存:Layerwise connector 支持 Mamba 预填充前缀缓存 (#7814)

  • Yuanrong KV 池后端:为 KV 池添加 Yuanrong 后端支持 (#6869)

硬件与算子支持#

  • 310P 增强功能

    • Qwen3.5 模型适配与主线同步 (#8009)

    • 支持 W8A8 动态线性方法 (#7725)

    • 在 Qwen3.5 的融合 MoE 中支持共享专家路径 (#7674)

    • 添加 npu_causal_conv1d_310 AscendC 自定义算子 (#7798)

    • 添加 recurrent_gated_delta_rule_310 AscendC 自定义算子 (#7926)

性能#

  • A2/A3 注意力:使用 _npu_flash_attention_unpad 算子替换 npu_fusion_attention 以提升性能 (#8671)

  • MLA PCP 预填充优化:通过避免投影不必要的尾部 KV 令牌来优化 MLA PCP 预填充注意力 (#8787)

  • 异步调度优化

    • 异步调度下发气泡优化 (#8766)

    • 零气泡异步调度与推测解码 (#7640)

  • KV 缓存优化

    • 通过 aclrtMemcpyBatchAsync 实现批量 KV 缓存卸载 (#7819)

    • 通过在 all-gather 之前选择块来优化 KV 缓存收集 (#8050)

  • 算子优化

    • 优化 split_qkv_tp_rmsnorm_rope 算子 (#8059)

    • 优化 Qwen3Next/Qwen3.5 预填充阶段的主机-设备同步问题 (#7967)

    • 减少 PCP/DCP (SFA) 的预填充 KV all-gather 通信 (#8043)

    • 添加惩罚相关的 Triton 内核以提升惩罚性能 (#7569)

  • Triton 内核优化 (model_runner_v2)

    • 优化 _temperature_kernel 和 _topk_log_softmax_kernel (#8083)

    • 优化 _min_p_kernel 性能 (#8243, #7767)

    • 添加 bad-words-kernel triton 内核 (#8030)

    • 优化 bincount_kernel 性能 (#7757)

    • 优化 _ranks_kernel 性能 (#7767)

    • 优化由函数参数触发的 triton 重编译 (#7480, #7481, #7483)

  • HCCL 进程组复用:在 Ascend 上复用等效的 HCCL 进程组 (#7654)

  • CPU 绑定延迟:将 CPU 绑定延迟至 worker 预热完成 (#7829)

  • Conv3d 转 Linear:当 kernel 大小等于 stride 时将 conv3d 转换为 linear (#8318)

依赖项#

  • vLLM:升级至 vLLM v0.19.1 (#8448)

  • Transformers:从 4.57.4 升级至 transformers 5.5.3,这是一次重大版本升级,包含显著改进和 API 变更 (#8448)

  • lm-eval:升级至 lm-eval 0.4.11 以兼容 transformers 5.5.3 (#8448)

  • 新增依赖项:在 requirements 中添加了 memcache 和 memfabric (#8747)

文档#

  • PD 分离指南

    • 使用 UCM 和 Mooncake 的 PD 分离 (#8338)

    • 动态分块流水线并行指南 (#8728)

  • 模型文档

    • GLM-5.1 模型教程 (#8054)

    • GLM4.7 文档更新 (#8450)

    • GLM5 文档(含参数和常见问题解答)(#7958, #7850)

    • Qwen3.5 用户指南更新 (#7866)

    • Kimi-K2.5 文档更新 (#7901)

    • Qwen3-Omni-30B-A3B-Thinking 文档 (#8628)

    • DeepSeekOCR2 文档 (#8573)

    • Hunyuan-A13B-Instruct 验证与文档 (#7381)

    • LLaVA-OneVision-Qwen2-0.5B-OV 教程 (#7912)

  • 文档改进

    • 启用 Markdown 公式的 MathJax 渲染 (#8793)

    • 更新版本策略 (#8656)

    • 在常见问题解答中添加抢占描述 (#8131)

    • 更新支持的 vLLM 版本 (#7923)

    • 参数化版本策略兼容性矩阵 (#8002)

    • 避免隐藏 NPU 导致的 A2 CPU 绑定重叠及文档更新 (#8792)

其他#

重要 Bug 修复

  • GQA C8 Fullgraph:修复了 GQA C8 fullgraph 模式下的一个 bug (#8779)

  • DSV3.1 W4A8 TTFT:回退 balance_flag 的变更以修复 DSV3.1 W4A8 TTFT 性能下降 (#8675)

  • DSV3.1 服务启动:修复 DeepSeek-V3.1 服务启动失败的问题 (#8208)

  • Qwen3.5 MoE 高并发:修复 dp>1 时高并发下 Qwen3.5 MoE FC1 错误 (#8396)

  • Qwen3.5 MoE Flash Comm:修复 A2 上 Qwen3.5 MoE flash comm v1 mtp 层共享专家形状错误 (#7683)

  • 图捕获OOM:修复了 model_runner_v2 中的图捕获内存溢出问题(#8111)

  • DeepSeek 3.2 C8精度:通过回退量化层修复了 DeepSeek 3.2 C8 的精度问题(#7628)

  • DeepSeek 3.2 DCP MTP:修复了 ds3.2 dcp mtp 问题(#7617)

  • MTP1并发崩溃:修复了 MTP1 在多个并发场景下的崩溃问题(#7459)

  • 投机解码+异步:修复了投机解码和异步的 bug(#8461)

  • 投机解码+Logprobs:修复了禁用异步调度时投机解码+logprobs 的崩溃问题(#7861)

  • 重复惩罚:修复了异步调度中 repetition_penalty 无效的问题(#7789)

  • P/D KV缓存:修复了 P/D 场景中 TP 不相等时 MTP 层的 KV 缓存问题(#8540)

  • P/D短序列:修复了 P/D 模式下短序列无响应的问题(#8104)

  • P/D重试机制:添加了重试机制以防止 P/D 中的丢包(#8166)

  • 分层连接器OOM:修复了大缓冲区传输时分层的连接器内存溢出问题(#7834)

  • KV池Put逻辑:修复了 KV 池未放入 KV 缓存的问题,并修复了 KV 传输的 Put 逻辑(#7875, #7717)

  • KV池PCP/DCP:修复了 KV 池的 PCP 和 DCP bug(#8099)

  • Mooncake后端:MooncakeBackend 处理 Ascend 之外的协议(#8514)

  • FlashComm服务器初始化:修复了使用 FLASHCOMM 时 max_num_seqs 不是 tp 倍数时的服务器初始化错误(#7801)

  • Triton重装:在 vllm-ascend 安装后重新安装 triton-ascend(#7790)

  • DBO兼容性:为 Ascend NPU 上的 --enable-dbo 添加了兼容性保护(#8507)

  • NPU上的GPU参数:在 Ascend NPU 上保护 GPU 特定的并行配置参数(#8703)

  • A2 CPU绑定:避免隐藏 NPU 导致的 A2 CPU 绑定重叠(#8792)

  • FIA填充Bug:修复了 EAGLE 最大并发下的 FIA 填充 bug(#7740)

  • MoE加载精度:修复了 allgather 中 moe_load 的精度问题(#7887)

  • Qwen的FlashComm1+DCP:支持 Qwen 模型的 FlashComm1 和 DCP(#7673)

  • 块验证:禁用块验证以避免 NPU 上的错误验证(#7603)

  • Model Runner V2全图:修复了全图模式下的 model_runner_v2(#7945)

  • MRv2投机解码:修复了 mrv2 在投机解码时的运行时错误(#8209)

  • GLM工具调用流式:修复了 GLM 工具调用流式问题(#8832)

  • 强制工具选择:修复了强制工具选择的 none-content 处理(#8833)

  • MiniMax推理用量:修复了 MiniMax 推理用量统计(#8831)

其他Bug修复:

  • MTP 在 lmhead TP logits 截断后的循环批次大小(#8718)

  • 修复了 DSV32 混合部署中 layer_sharding 导致的错误(#8717)

  • EPLB topk_ids 使用逻辑专家计数(#8501)

  • EPLB 验证逻辑优化及 MTP 支持冗余专家(#8710)

  • SP 在 MoE 序列并行中保留图字符串化(#8780)

  • SpecDecode 修复 draft quarot 模型加载超时(#8736)

  • 修复 _dummy_run 预热与 --language-model-only 不匹配的问题(#8556)

  • 修复 AscendYaRNRotaryEmbedding 中的 AttributeError(#8734)

  • Eagle3 添加全图形案例并检查 mock 函数 (#8668)

  • 修复 npu_fused_infer_attention_score_v2 中的 atten_mask (#8387)

  • 修复 eagle 与 dflash 在 pcp 上的冲突 (#8598)

  • 修复 DeepSeek 3.2 PCP+MTP 的 slot 映射错误 (#8547)

  • dispatch_ffn_combine 内核回滚 (#8539)

  • 层分片需要 KV 生产者 (#8562)

  • 310P 使用 CPU 生成器缓存进行采样 (#8495)

  • 修复 pcp+eagle3 的 compute_slot_mapping triton (#8435)

  • 在 fuse_moe 中处理基于枚举的 MoE 激活 (#8465)

  • 按 PD 模式门控 recompute/balance/fused_mc2 (#8373)

  • w8a8 dispatch ffn combine 偏置参数适配 (#8342)

  • 修复 flashcomm1 下 GLM-5 的 w8a8_static 中 quant_bias 缺失问题 (#8220)

  • 修复 deepseek v3.2 的 DSA-CP PD 角色门控 (#8290)

  • 逐层 AscendStorConnector 需要分段 cudagraph (#8283)

  • 修复 patch balance 调度器中的远程 KV 等待提升问题 (#8279)

  • 对 CPU 绑定子进程解析强制执行 C 语言环境 (#8251)

  • 在 mlapo 分支 SFA 中添加 wait_for_kv_layer_from_connector (#8195)

  • 修复 SP 填充时的维度不匹配问题 (#7858)

  • 310P 修复 Triton 内核 block_table 崩溃 (#8144)

  • 修复短提示的注意力状态 (#8029)

  • 310P 修复图模式下后采样不工作问题 (#8017)

  • 310P 使 GDN 状态语义与 vLLM 对齐 (#7902)

  • 310P 处理 ShardedStateLoader310 中的空量化配置 (#7546)

  • 在 eager 模式下启用 SP 和 eagle3 时取消填充 block table (#7986)

  • 修复 qwen3-next 编译错误 (#7936)

  • 修复 qwen3-vl 的 weightsmapper 错误 (#7869)

  • 修复量化配置属性错误 (#7736)

  • 移除 eplb 不必要的 weight_scale 包装行为 (#7733)

  • 适配 model runnerv2 的 main2main 并在休眠模式添加垃圾回收 (#7709)

  • 修复嵌入模型的前缀缓存支持 (#7452)

  • 在图+强化学习场景中复用权重地址 (#7473)

已知问题#

v0.18.0rc1 - 2026年04月01日#

这是 vLLM Ascend v0.18.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • C8(INT8 KV 缓存)现已支持 GQA 注意力模型,并且在 PD 解耦场景下的 DeepSeek-V3.1 中也得到支持。#7474, #7222

  • 通过新的 MLA 算子,DeepSeek 模型现已在 A5 上得到支持。#7232

功能#

  • Flash Comm V1 现已支持使用 MLA 的 VL 模型,移除了之前对多模态服务的一个限制。#7390

  • 支持在推测式解码中为目标模型和草稿模型使用独立的注意力后端,允许针对每个模型进行更精细的后端调优。#7342

  • VL MoE 模型现在支持 SP,并且移除了 sp_threshold,转而采用 vLLM 的 sp_min_token_num#7044

  • Qwen VL 模型现在支持 w8a8_mxfp8 量化。#7417

性能#

  • 优化了 Triton 算子的重编译,以减少由函数参数优化触发的冗余重建和不必要的重新编译。#7647 #7645

  • 通过预构建分块元数据,优化了 Qwen3.5 和 Qwen3-Next GDN 的预填充路径,减少了主机-设备同步开销。#7487

  • 简化了 FIA 预填充上下文合并路径,以提高运行时效率。#7293

文档#

  • 更新了 Kimi-K2.5、GLM-4.7、DeepSeek-V3.2、MiniMax-M2.5 的部署和模型文档,以及 PD 解耦指南。#7371 #7403 #7292 #7296 #7300

其他#

  • 修复了一个 PD 解耦问题,该问题曾导致解码节点因 DP 节点间形状未对齐而卡住。#7534

  • 修复了一个回归问题,该问题导致升级到 v0.18.0 后,Ascend 上的混合注意力加 Mamba 模型可能以错误的块大小启动。#7528

  • 修复了单卡部署中多实例服务 OOM 计算的问题。#7427

  • 修复了在叠加 MTP 与完全解码和全图模式时 DeepSeek v3.1 C8 的问题。#7571

  • 通过将反向映射改为前向映射,修复了 AscendModelSlimConfig 中的量化配置键映射。#7716

已知问题#

  • 在高并发下运行启用了 MTP 和 KV Pool 的 DeepSeek-R1 W8A8 时,可能会出现 ValueError: Counters can only be incremented by non-negative amounts 错误。#7489

  • triton-ascend 可能因 g++ 内部编译器错误(段错误)而编译失败。解决方法:更新到 triton-ascend==3.2.0.dev20260322 并清除 Triton 缓存(rm -rf ~/.triton/cache/*)。#7782

  • 在 Ascend 上使用 tp-size >= 16 时,FIA 不支持所有的 MHA 头维度。受影响的模型会因不支持的头部维度而出错。这将在未来的版本中,当 FIA 支持更多头部维度时得到解决。#7729

  • 尽管 Minimax-2.5 现在支持 PD 解耦,但内部测试发现启用此功能时,在 GPQA 基准测试上会出现 13% 的性能回退。我们目前不建议为此模型启用 PD 解耦,并且我们正在努力进行优化修复。

v0.17.0rc1 - 2026年03月15日#

这是 vLLM Ascend v0.17.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已支持 Ascend950 芯片。#7151

  • Model Runner V2 现已支持 ACLGraph(图模式)。#7110

  • 支持统一的并行化推测解码,可同时启用并行草稿推理方案。#6766

功能#

  • 支持从模型文件自动检测量化格式,同时也支持远程模型ID(例如 org/model-name)。现在不再需要 --quantization ascend 参数。#7111

  • 从本版本开始支持 Qwen3.5。

  • 用于 EPLB 的 FlashLB 算法:支持每步热度收集和多阶段负载均衡,以提高专家并行效率。#6477

  • 已修复并支持了结合张量并行和 --fully-sharded-loras 的 LoRA。#6650

  • 新增 LMCacheAscendConnector 作为 Ascend 的新 KV 缓存池化解决方案。#6882

  • 在 PD-mix 场景下,DeepSeek-V3.2 现已支持 W8A8C8 量化。#7029

  • [实验性] Ascend NPU 现已支持 Minimax-m2.5 模型。#7105

  • [实验性] Mooncake Layerwise Connector 现在支持具有多个 KV 缓存组的混合注意力管理器。#7022

  • [实验性] 混合模型现已支持前缀缓存。#7103

性能#

  • 流水线并行现在支持异步调度,提高了 PP 部署的吞吐量。#7136

  • 通过减少日志开销,改善了使用 Mooncake 连接器时的首令牌延迟。#6125

  • 针对短序列(令牌长度 < block_size)优化了 KV 池查找。#7146

  • 修复了 Model Runner V2 中的惩罚操作,实现了约 10% 的性能提升。#7013

文档#

  • 新增了 EPD(编码-预填充-解码)文档和负载均衡代理示例。#6221

  • 新增了 Ascend PyTorch Profiler 使用指南。#7117

  • 修复了 DSV3.1 PD 配置文档。#7187

其他#

  • 修复了推测解码在全图模式下草稿器崩溃的问题。#7158 #7148

  • 修复了由旋转量化 MTP 权重引起的 GLM5-W8A8 精度问题。#7139

  • 修复了 310P 上 ngram 图重放的精度错误。#7134

  • 在上游 vLLM 变更后,修复了图模式下的 FIA 填充逻辑。#7144

  • 修复了 Qwen3.5 上因 KV 缓存重塑错误导致的精度问题。#7209

  • 修复了在 rank0 设备上产生额外进程的问题。#7107

  • 图捕获失败现在会正确抛出异常,便于调试。#5644

  • 通过将 torch_npu.npu_recurrent_gated_delta_rule 替换为 fused_recurrent_gated_delta_rule 来修复 Qwen3.5 模型。#7109

  • 修复了运行带 LoRA 的 Qwen3-Reranker-0.6B 时的错误。#7156

已知问题#

  • GLM5 需要 transformers==5.2.0,此问题将通过 vllm-project/vllm#30566 解决,不会包含在 v0.17.0 中。

  • 由于 TP 权重分割方法变更,Qwen3-Next 存在精度问题。将在下个版本中修复。

  • 在混合模型中,当前前缀缓存命中所需的最小令牌数较大。具体数值与 TP 大小相关,例如,当 TP=2 时,block_size 调整为 2048,这意味着任何短于 2048 的前缀都不会被缓存。

  • GLM5 在 2 节点 PD 混合部署场景中存在一个问题:当并发数超过 8 时,推理可能会挂起(已在 PR #7235#7290 中修复)。

v0.16.0rc1 - 2026年03月09日#

这是 vLLM Ascend v0.16.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已提供 Qwen3-Omni 量化适配和优化。#6828

  • 通过参数化硬编码的 MLA 维度,现已支持 GLM5-W8A8 量化。#6902

功能#

  • [实验性] 支持 ADXL/HIXL 互连的 FabricMem 模式。#6806

  • Qwen3-Next 现已支持 FlashComm1。#6830

  • NPUWorker Profiler 现已支持 profile_prefix,以提供更优的性能分析体验。#6968

  • EPLB 性能分析现在会显示专家热度对比以及 EPLB 调整所需的时间。#6877 #7001

  • Xlite Qwen3 MoE 现已支持数据并行(Data Parallel)。#6715

  • Mooncake Layerwise Connector 现已支持 kv_pool。#7032

  • Eagle3 现已支持不含嵌入层的 QuaRot 量化。#7038

硬件与算子支持#

  • 310P 现已支持 w8a8sc 量化方法。#7075

  • 为 Qwen3-Next 新增了 AscendC casual_conv1d_fn 算子。#6661

  • 新增了 Ascend Ops recurrent_gated_delta_rule 算子。#6725

  • 为 MoE 模型新增了 GMM 自定义算子。#7010

性能#

  • 更快的卷积计算将 Qwen3-VL 模型的首次令牌时间(TTFT)提升了 0.95%,吞吐量提升了 0.59%。#7017

  • 优化了 split_qkv_rmsnorm_rope 算子。#6827

  • 实现了全局 CPU 切片并改进了 Ascend NPU 的 IRQ 绑定,确保 CPU 分区不重叠,实现更优的资源管理。#6945

  • 通过重排状态更新操作优化了 MTP 执行。#6844

  • 通过使用完整张量拷贝,避免了 mrope_positions 拷贝时的 CPU 同步。#7014

  • 移除了 MoE 模型中 expert_map 的 H2D 同步。#7000

依赖项#

  • CANN 已升级至 8.5.1,如果您未使用官方镜像,请记得手动升级。#6897

弃用与重大变更#

  • 配置选项 enable_flash_comm_v1 已重命名回 enable_sp#6883

  • 从模型文件自动检测量化格式的功能已回退。在 v0.16.0rc1 版本中,要服务由 modelslim 量化的模型,仍需添加 --quantization ascend 参数。在修复了远程模型 ID 相关的 bug 后,此功能将在下一版本中重新加入。#6873

文档#

  • 新增了 CPU 绑定的用户/开发者指南。#7045

  • 新增了指标使用文档和示例。#6962

  • 新增了用于 LLM 发现的 llms.txt 文件。#6886

  • 新增了 GLM4.x 多节点部署教程。#6872

  • 新增了对 310p 特殊参数 max-model-len 的说明。#7065

其他#

  • 修复了 openEuler Dockerfile 错误。#6871

  • 多项错误修复,包括:

    • 修复了启用上下文并行(Context Parallel)时的 Eagle 推测解码问题。#6981 #7079

    • 修复了上游 vLLM 变更引入的 LoRA 精度问题。#6958

    • 修复了负载均衡代理服务器中的流式传输 content-type 问题。#6985

    • 修复了元数据执行错误:整数除以零取模。#6521

    • 修复了 triton rope_siso 实现中的 bug。#7082

    • 修复了 update_aclgraph_sizes 中 MTP 模型的层数错误。#7064

    • 修复了 CANN b020 之后版本的编译错误。#7059

    • 修复了 GLM4.6V 中的量化配置支持问题。#7062

    • 修复了 _merge_multimodal_embeddings 中的参数顺序错误。#7068

    • 修复了 EPLB 中的融合 mc2 错误。#6794

    • 修复了计算槽位映射时的内核块大小问题。#7019

    • 修复了 P/D 解耦中分层堆叠 MTP 的错误。#7036

    • 修复了 npu_rotary_embedding 的 RoPE 维度问题。#6880

    • 修复 Qwen-Omni 量化错误。#7042 #7007

    • 修复图模式下 GDN 层精度问题。#6822

    • 修复 PD 解耦中 PCP/DCP 的精度错误。#6876

    • 修复 PD 解耦中的 MTP 问题,为所有 D 节点提供全图支持。#6948

    • 修复同时启用 DP 和 DCP 时 GQA 模型的错误。#7012

    • 修复 MTP 预填充被误分类为解码的边缘情况。#6835

    • 修复 QuaRot 量化模型的 Eagle3 接受率问题。#6914

    • 修复启用 FlashComm V1 时 MTP 模型的 RoPE 形状不匹配问题。#6939

    • 修复 Qwen2.5VL 精度问题。#6975

    • 修复启用静态内核时的 MoE 前向传播错误。#6964

    • 修复 GLM5 模型的 muls_add 融合问题。#6928

    • 修复多模态模型的 GDN 层检测问题。#6941

    • 修复 300I 非量化模型的权重 nd2nz 错误。#6851

    • 修复 CPU 绑定逻辑。#6889

    • 修复 Eagle 全图形状捕获问题。#6846

已知问题#

  • 目前,对于 DeepSeek v3.2,PCP 和 DCP 尚不能与 FlashComm1 功能协同工作,这可能导致服务错误或其他未知错误。

  • 在采用 DeepSeek V3.2 的 4 节点 A3 PD 解耦部署中,P 节点在高并发场景(例如,2K/2K tokens 和 512 个并发请求)下进行基准测试时可能出现挂起。

  • 具有大规模 EP 配置的 MTP 可能导致图捕获缓冲区溢出。这是 vLLM 中需要修复的一个 bug,目前有一个临时解决方案可以避免此问题:显式设置 --compilation-config '{"max_cudagraph_capture_size": N}',其中 N = max_concurrency × (1 + num_speculative_tokens)

v0.15.0rc1 - 2026.02.27#

这是 vLLM Ascend v0.15.0 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • NPU Graph EX (npugraph_ex) 默认启用:npugraph_ex 功能现已默认启用,通过集成的 inductor pass 和 MatmulAllReduceAddRMSNorm 融合提供更好的图优化。#6354 #6664 #6006

  • 310P MoE 和 W8A8 支持[实验性]:310P 现已支持 MoE 模型、W8A8 量化和 weightNZ 功能,显著扩展了硬件能力。#6530 #6641 #6454 #6705

  • Qwen3-VL-MoE EAGLE 支持:为 Qwen3-VL-MoE 模型添加了 EAGLE 推测式解码支持。#6327

  • Kimi-K2.5 模型支持:添加了对 Kimi-K2.5 模型的支持。请注意,vLLM 0.15.0 存在一个与 Kimi-K2.5 相关的已知问题。要修复此问题,请应用上游 vllm-project/vllm 仓库的更改,特别是来自拉取请求 #33320#34501 的更改。#6755

功能#

  • 自动检测量化格式:现在可以从模型文件自动检测量化格式。#6645

  • GPT-OSS Attention 支持:添加了 GPT-OSS attention 实现。#5901

  • SFA 的 DCP 支持:为 SFA 架构添加了解码上下文并行 (DCP) 支持。#6563

  • Mooncake 分层 PCP 支持:Mooncake 分层连接器现在支持 PCP 功能。#6627

  • Mooncake 连接器远程 PTP 大小:Mooncake 连接器现在可以获取远程 PTP 大小。#5822

  • KV 池稀疏注意力:KV 池现在支持稀疏注意力。#6339

  • 使用 AscendC 实现批处理不变性:使用 AscendC 实现了批处理不变性功能。#6590

  • 路由重放:新增路由重放功能。#6696

  • 压缩张量 MoE W4A8 动态权重:新增对压缩张量 MoE W4A8 动态权重量化的支持。#5889

  • GLM4.7-Flash W8A8 量化:为 GLM4.7-Flash 新增 W8A8 量化支持。#6492

  • DispatchGmmCombineDecode 增强:DispatchGmmCombineDecode 现在支持 bf16/float16 的 gmm1/gmm2 权重以及 ND 格式权重。#6393

  • RMSNorm 动态量化融合:新增 rmsnorm 动态量化融合 pass。#6274

  • 工作进程健康检查接口:为工作进程新增 check_health 接口。#6681

硬件与算子支持#

  • 310P 支持扩展:针对 310P 硬件的多项改进:

    • 修复了 310P 上的注意力精度问题。#6803

    • 为 310P 新增 weightNZ 特性,支持量化或非量化权重。#6705

    • 为 300I DUO 新增 addrmsnorm 支持。#6704

    • 310P 现在支持 PrefillCacheHit 状态。#6756

  • 仅 ARM CPU 绑定:启用了仅 ARM CPU 绑定,采用 NUMA 均衡的 A3 策略。#6686

  • Triton Rope 增强:Triton rope 现在支持从 cos_sin_cache 进行 index_selecting。#5450

  • AscendC 融合算子:新增 AscendC 融合算子 transpose_kv_cache_by_block,以加速 GQA 传输。#6366

  • Rotary_dim 参数:在 rotary_embedding 中使用部分 rope 时,新增对 rotary_dim 参数的支持。#6581

性能#

  • 多模态 seq_lens CPU 缓存:使用 seq_lens CPU 缓存以避免频繁的 D2H 拷贝,从而提升多模态性能。#6448

  • DispatchFFNCombine 优化:优化了 DispatchFFNCombine 内核性能,并解决了因未对齐 UB 访问导致的向量错误。#6468 #6707

  • DeepSeek V3.2 KVCache 优化:优化了 DeepSeek V3.2 的 KV 缓存使用。#6610

  • MLA/SFA 权重预取:重构了 MLA/SFA 权重预取,使其与 MoE 权重预取保持一致。#6629

  • MLP 权重预取:重构了 MLP 权重预取,使其与 MoE 模型的预取机制保持一致。#6442

  • 自适应块大小选择:在 linear_persistent 内核中新增自适应块大小选择功能。#6537

  • EPLB 内存优化:减少了 EPLB 中用于热度聚合的内存占用。#6729

  • 内存迁移与中断核心绑定:改进了绑定逻辑,增加了内存迁移和中断核心绑定功能。#6785

  • Triton 稳定性:提升了 Triton 在 Ascend 上处理大规模网格时的稳定性。#6301

依赖项#

  • Mooncake:升级至 v0.3.8.post1。#6428

弃用与重大变更#

  • ProfileExecuteDuration:清理并弃用了 ProfileExecuteDuration 功能。#6461

  • 自定义 rotary_embedding 算子:移除了自定义 rotary_embedding 算子。#6523

  • USE_OPTIMIZED_MODEL:清理了未使用的环境变量 USE_OPTIMIZED_MODEL#6618

文档#

  • 新增了 vllm-ascend 的 AI 辅助模型适配工作流文档。#6731

  • 新增了 vLLM Ascend 开发指南 (AGETNS.md)。#6797

  • 新增了 GLM5 教程文档。#6709 #6717

  • 新增了 Memcache 使用指南。#6476

  • 新增了请求转发文档。#6780

  • 新增了后缀推测解码的基准测试教程。#6323

  • 重构了教程文档结构。#6501

  • 新增了 npugraph_ex 介绍文档。#6306

其他#

  • PD 全图中的 MTP:修复了在 PD 部署中运行 MTP 时,全图对所有 D-Nodes 的支持问题。#5472

  • DeepSeekV3.1 精度:修复了 DeepSeekV3.1 的精度问题。#6805

  • EAGLE 重构:已将 MTP 路由至 EAGLE,但 PCP/DCP+MTP 的情况除外。#6349

  • 推测解码准确性:修复了 vLLM 0.15.0 中的推测接受率问题。#6606

  • PCP/DCP 准确性:修复了 PCP/DCP 在使用推测解码时的准确性问题。#6491

  • 动态 EPLB:修复了动态 EPLB 无效的 bug,且 EPLB 不再依赖于特定模型。#6653 #6528

  • KV 池 Mooncake 后端:正确初始化了 mooncake 后端的 head_or_tp_rank。#6498

  • 分层连接器重计算调度器:分层连接器现在支持重计算调度器。#5900

  • 内存缓存池:修复了启用内存缓存池时服务启动失败的问题。#6229

  • AddRMSNormQuant:修复了 AddRMSNormQuant 未生效的问题。#6620

  • 池化代码:修复了池化代码问题并更新了使用指南。#6126

  • 上下文并行:修复并统一了 PD 请求判别逻辑。#5939

  • npugraph_ex:修复了重复模式问题,并为 allreduce rmsnorm 融合通道添加了额外检查。#6513 #6430

  • RecomputeScheduler:修复了 RecomputeScheduler 与 vLLM v0.14.1 不兼容的问题。#6286

v0.13.0 - 2026年02月06日#

这是 vLLM Ascend v0.13.0 的最终版本。请按照 官方文档 开始使用。

亮点#

模型支持

  • DeepSeek-R1 & DeepSeek-V3.2:[实验性]性能优化和异步调度增强。#3631 #3900 #3908 #4191 #4805

  • Qwen3-Next:[实验性]全面支持 Qwen3-Next 系列模型(包括 80B-A3B-Instruct),支持全图模式、MTP、量化(W8A8)、NZ 优化和分块预填充。修复了多个准确性和稳定性问题。#3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770

  • InternVL:添加了对 InternVL 模型的支持,包含全面的端到端测试和准确性评估。#3796 #3964

  • LongCat-Flash:[实验性]添加了对 LongCat-Flash 模型的支持。#3833

  • minimax_m2:[实验性]添加了对 minimax_m2 模型的支持。#5624

  • Whisper 与交叉注意力:[实验性]添加了对交叉注意力和 Whisper 模型的支持。#5592

  • 池化模型:[实验性]添加了对池化模型的支持,并进行了 PCP 适配,修复了多个与池化相关的 bug。#3122 #4143 #6056 #6057 #6146

  • PanguUltraMoE:[实验性]添加了对 PanguUltraMoE 模型的支持。#4615

核心功能

  • 上下文并行 (PCP/DCP):[实验性] 全面支持预填充上下文并行 (PCP) 和解码上下文并行 (DCP),集成了 ACLGraph、MTP、分块预填充、MLAPO 和 Mooncake 连接器。此为实验性功能,欢迎反馈。#3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672

  • 全图模式 (ACLGraph):[实验性]增强了全图模式,支持 GQA,进行了内存优化,统一了 ACLGraph 与 Torchair 之间的逻辑,并提高了稳定性。#3560 #3970 #3812 #3879 #3888 #3894 #5118

  • 多令牌预测 (MTP):显著改进了 MTP 支持,包括针对 DeepSeek 的分块预填充、量化支持、全图模式、PCP/DCP 集成和异步调度。MTP 现在在大多数情况下都能工作,建议使用。#2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477

  • Eagle 推测解码:Eagle 推测解码现已支持全图模式且更加稳定。#5118 #4893 #5804

  • 预填充-解码解耦:将 ADXL 引擎设置为解耦预填充的默认后端,提升了性能和稳定性。为 DeepSeek 解码节点添加了对 KV NZ 特性的支持。#3761 #3950 #5008 #3072

  • KV 池与 Mooncake:增强了 KV 池,支持 Mooncake 连接器用于 PCP/DCP、多输入后缀,并提升了 Layerwise Connector 的性能。#3690 #3752 #3849 #4183 #5303

  • EPLB(弹性预填充负载均衡):[实验性]EPLB 现已更加稳定,修复了多个错误。混合放置现已可用。#6086

  • 仅全解码模式:在 full_decode_only 模式下添加了对 Qwen3-Next 和 DeepSeekv32 的支持,并修复了相关错误。#3949 #3986 #3763

  • Model Runner V2:[实验性]添加了对下一代 vLLM 的 Model Runner V2 的基本支持。它将在未来的版本中默认启用。#5210

功能#

  • W8A16 量化:[实验性]添加了对新的 W8A16 量化方法的支持。#4541

  • UCM 连接器:[实验性]为 KV 缓存卸载添加了 UCMConnector。#4411

  • 批次不变性:[实验性]实现了批次不变性特性的基础框架。#5517

  • 采样:在 Eagle 中增强了采样功能,支持 async_scheduler 和 disable_padded_drafter_batch。#4893

硬件与算子支持#

  • 自定义算子:添加了多个自定义算子,包括:

    • 融合的 matmul/reduce-scatter 内核 #3693

    • mrope 融合算子 #3708

    • 用于 Qwen3-Next 的 Triton chunk_gated_delta_rule 算子 #4070

    • l2norm triton 内核 #4595

    • RejectSampler、MoeInitRoutingCustom、DispatchFFNCombine 自定义算子

  • 算子融合:添加了支持 SP 的 AddRmsnormQuant 融合模式以及用于量化的 inductor 融合。#5077 #4168

  • MLA/SFA:将 SFA 重构为 MLA 架构,以提高可维护性。#3769

  • FIA 算子:适配了具有 flash decoding 功能的 npu_fused_infer_attention_score。为优化小批次场景下的性能,现提供此注意力算子。请参考常见问题第 22 条以启用它。#4025

  • CANN 8.5 支持:在启用 FIA 算子后,为 CANN 8.5 移除了 CP 冗余变量。#6039

性能#

本版本添加了许多自定义算子和 Triton 内核以加速模型性能:

  • DeepSeek 性能:[实验性]通过消除异步调度中的 HD 同步以及优化 MTP 的内存使用,提升了 DeepSeek V3.2 的性能。#4805 #2713

  • Qwen3-Next 性能:[实验性]通过 Triton 算子和优化提升了性能。#5664 #5984 #5765

  • FlashComm:通过 o_shared linear 和通信域修复增强了 FlashComm v2 优化。#3232 #4188 #4458 #5848

  • MoE 优化:针对 MoE 模型优化了 all2allv 并增强了 all-reduce 跳过逻辑。#3738 #5329

  • 注意力优化:将注意力更新流移出循环,为长序列优化将 BSND 格式转换为 TND 格式,并在注意力切换到 transpose_batchmatmul 后移除了转置步骤。#3848 #3778 #5390

  • 量化性能:在 Allgather EP 中将量化操作移至 allgather 之前。#3420

  • Layerwise 连接器:[实验性]提升了 Layerwise Connector 的性能。#5303

  • 前缀缓存:提升了前缀缓存特性的性能。#4022

  • 异步调度:修复了异步复制并消除了异步调度中的挂起问题。#4113 #4233

  • 内存操作:移除了冗余的 D2H 操作,并删除了 model_runner 中的冗余操作。#4063 #3677

  • Rope 嵌入:使用 Triton 内核优化了 rope 嵌入,带来巨大的性能提升。#5918

  • 采样:新增支持无 top_k 约束的高级 apply_top_k_top_p 功能。#6098

  • 多模态:在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

依赖项#

  • CANN:已升级至 8.5.0 #6112

  • torch-npu:已升级至 2.8.0.post2。默认安装在 Docker 容器中。

  • triton-ascend:已升级至 3.2.0 #6105

  • vLLM:已升级至 0.13.0 并停止支持 0.12.0。#5146

  • Transformers:已升级至 >= 4.57.4 #5250

弃用与重大变更#

  • CPUOffloadingConnector 已弃用。我们将在下一个版本中移除它。未来将由 vLLM 的 CPUOffload 功能替代。

  • ProfileExecuteDuration 功能 已弃用。

  • Ascend 调度器 已被移除。#4623

  • Torchair 已被移除。#4814

  • VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE 已被移除,建议使用 VLLM_ASCEND_ENABLE_PREFETCH_MLP 替代,因为它们通常总是同时启用。#5272

  • VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已被移除。#5270

  • 由于我们注意到在某些浮点权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878

  • additional_config 中的 chunked_prefill_for_mla 现已被移除。#5296

  • additional_config 中的 dump_config 已重命名为 dump_config_path,且类型从 dict 更改为 string#5296

  • 用于嵌入模型的 --task 参数 已弃用。#5257

  • VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True。默认将在解码节点启用。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。

文档#

  • 新增了关于 ACLGraph、MTP、KV 池、EPLB 和 PD 解耦功能的全面开发者指南

  • 新增了多个模型的教程,包括 DeepSeek-V3.2-Exp、Qwen3-Next 以及各种多模态模型

  • 更新了常见问题解答和配置文档

其他#

  • OOM 修复:VL 模型上的 OOM 错误现已修复。我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136

  • Qwen3-Next-MTP 精度:修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932

  • ZMQ 错误修复:修复了 zmq 发送/接收失败的错误。#5503

  • 权重转置:修复了 RL 场景中的权重转置问题。#5567

  • Eagle3 SP:使 SP 适配 eagle3。#5562

  • GLM4.6 MTP:GLM4.6 现在支持全图模式下的 MTP。#5460

  • Flashcomm2 Oshard:Flashcomm2 现在可与 oshard 通用化功能协同工作。#4723

  • 细粒度共享专家重叠:支持细粒度的共享专家重叠。#5962

已知问题#

  • 由于 transformers 包的升级,某些模型的量化权重(如 qwen2.5vlgemma3minimax)可能无法工作。我们将在下一个补丁版本中修复此问题。#6302

  • Qwen3-32B 在 128K 输入长度场景下的性能可能不佳,建议为此场景启用 pcp&dcp 功能。这将在下一个 CANN 版本中得到改进。

  • Qwen3-235BQwen3-480B 在预填充-解码场景和 EP=32 场景下的性能未达预期。我们将在下一个补丁版本中改进。

  • 在预填充-解码场景下部署 deepseek3.1 时,请确保解码节点的 TP 大小大于 1。TP=1 无法工作。这将在下一个 CANN 版本中修复。

v0.14.0rc1 - 2026年1月26日#

这是 vLLM Ascend v0.14.0 的第一个候选发布版本。请按照 官方文档 开始使用。此版本包含了 v0.13.0rc2 中的所有更改。因此我们仅列出与 v0.13.0rc2 的差异。如果您是从 v0.13.0rc1 升级,请同时阅读 v0.14.0rc1 和 v0.13.0rc2 的发布说明。

亮点#

  • 现已恢复对 310P 的支持。在此版本中,仅支持基础密集模型和 VL 模型,且使用 Eager 模式。我们将持续改进和维护对 310P 的支持。#5776

  • 支持压缩张量的 MoE w8a8-int8 量化。#5718

  • 支持 Medusa 推测式解码。#5668

  • 支持 Qwen3vl 使用 Eagle3 推测式解码。#4848

功能#

  • Xlite 后端现已支持 Qwen3 MoE 模型。#5951

  • 支持在 PD-mix 部署场景中使用 DSA-CP。#5702

  • 新增对 W4A4_LAOS_DYNAMIC 量化方法的支持。#5143

性能#

  • Qwen3-next 模型的性能已得到提升。#5664 #5984 #5765

  • CPU 绑定逻辑和性能已得到改进。#5555

  • 合并 Q/K 拆分以简化 AscendApplyRotaryEmb,从而提升性能。#5799

  • 新增 Matmul Allreduce Rmsnorm 融合 Pass。默认禁用。在 --additional_config 中设置 fuse_allreduce_rms=True 以启用它。#5034

  • 使用 triton 内核优化 rope embedding,以获得巨大的性能提升。#5918

  • 支持无 top_k 约束的高级 apply_top_k_top_p。#6098

  • 在 AscendMMEncoderAttention 中并行化 Q/K/V 填充以获得更好的性能。#6204

其他#

  • model runner v2 支持 triton 惩罚算子。#5854

  • model runner v2 支持 eagle 推测式解码。#5840

  • 通过默认设置 expandable_segments:True 修复多模态推理 OOM 问题。#5855

  • VLLM_ASCEND_ENABLE_MLAPO 默认设置为 True。在 PD 部署场景中,解码节点会自动启用此功能。请注意,此功能会消耗更多内存。如果您对内存敏感,请将其设置为 False。#5952

  • 对于使用 mooncake 分层连接器的 PD 部署,SSL 配置可以设置到 kv_extra_config 中。#5875

  • 支持 --max-model-len auto#6193

依赖项#

  • torch-npu 已升级至 2.9.0 版本。#6112

弃用与重大变更#

  • EPLB 配置选项已移至 additional config 中的 eplb_config。旧选项在此版本中已被移除。

  • 性能分析器环境变量,例如 VLLM_TORCH_PROFILER_DIRVLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,现已不再适用于 vLLM Ascend。请改用 vLLM 的 --profiler-config 参数。#5928

已知问题#

  • 如果您有时遇到来自 EngineCore 进程的 pickle 错误,请将 PR cherry-pick 到您的本地 vLLM 代码中。此已知问题将在 vLLM 的下一个版本中修复。

v0.13.0rc2 - 2026年1月24日#

这是 vLLM Ascend v0.13.0 的第二个候选发布版本。在此 rc 版本中,我们修复了大量错误并提升了多款模型的性能。请按照 官方文档 开始使用。欢迎任何反馈以帮助我们改进 v0.13.0 的最终版本。

亮点#

在此版本中,我们主要关注质量和性能的改进。推测式解码、图模式、上下文并行和 EPLB 都得到了显著提升。修复了大量错误,并提升了 DeepSeek3.1/3.2、Qwen3 Dense/MOE 等模型的性能。

功能#

  • 实现批处理不变性的基础框架 #5517

  • Eagle 推测式解码功能现在可与全图模式协同工作。#5118

  • 上下文并行(PCP&DCP)功能现在更加稳定,适用于大多数场景。请尝试使用。

  • MTP 和 eagle 推测式解码功能现在在大多数情况下都能正常工作。建议在大多数情况下使用它们。

  • EPLB 功能现在更加稳定。修复了许多错误。混合放置现已可用 #6086

  • 支持在 disagg-prefill 场景中为 DeepSeek 解码节点使用 kv nz 功能 #3072

模型支持#

  • 现已支持 LongCat-Flash 模型。#3833

  • 现已支持 minimax_m2 模型。 #5624

  • 支持 cross-attention 和 whisper 模型 #5592

性能#

  • 此版本中添加了许多自定义算子和 triton 内核,以加速模型性能。例如 RejectSamplerMoeInitRoutingCustomDispatchFFNCombine 等。

  • 提升了 Layerwise Connector 的性能 #5303

其他#

  • 基础支持 Model Runner v2。Model Runner V2 是 vLLM 的下一代引擎,将在未来版本中默认使用。#5210

  • 修复了 zmq 发送/接收可能失败的 bug #5503

  • 支持 Qwen3-Next-MTP 使用全图模式 #5477

  • 修复了强化学习场景中的权重转置问题 #5567

  • 使 SP 适配 eagle3 #5562

  • 上下文并行(PCP&DCP)支持 mlapo #5672

  • GLM4.6 支持全图模式下的 mtp #5460

  • Flashcomm2 现已支持 oshard 通用化特性 #4723

  • 支持为 Eagle 草稿模型设置 tp=1 #5804

  • Flashcomm1 特性现已支持 qwen3-vl #5848

  • 支持细粒度共享专家重叠 #5962

依赖项#

  • CANN 已升级至 8.5.0

  • torch-npu 已升级到 2.8.0.post1。请注意,该版本默认不会安装,请从 pypi 镜像站 手动安装。

  • triton-ascend 已升级至 3.2.0

弃用与重大变更#

  • CPUOffloadingConnector 已被弃用,将在下一个版本中移除,未来将由 vLLM 的 CPUOffload 功能替代。

  • eplb 配置选项已移至 附加配置 中的 eplb_config,旧选项将在下一个版本中移除。

  • ProfileExecuteDuration 功能 已被弃用,已被 vLLM 的 ObservabilityConfig 替代。

  • VLLM_ASCEND_ENABLE_MLAPO 环境变量的值将在下一个版本中默认设置为 True,将在解码节点默认启用。请注意,此功能会消耗更多内存,如果您对内存敏感,请将其设置为 False。

v0.13.0rc1 - 2025.12.27#

这是 vLLM Ascend v0.13.0 的第一个候选发布版本,在此版本中完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend,请按照 官方文档 开始使用。

亮点#

  • 提升了 DeepSeek V3.2 的性能,请参考 教程

  • 现已支持带分块预填充的 Qwen3-Next MTP #4770,请参考 教程

  • [实验性功能] 已支持预填充上下文并行(Prefill Context Parallel)和解码上下文并行(Decode Context Parallel),请注意这目前是一个实验性功能,欢迎任何反馈。详情请参考 上下文并行特性指南

功能#

  • 支持 openPangu Ultra MoE #4615

  • 现已支持新的量化方法 W8A16。#4541

  • 现已支持跨机解耦预填充(Disaggregated Prefill)。#5008

  • 为 KV 缓存卸载(Offloading)添加 UCMConnector。#4411

  • 在 eagle 中支持 async_scheduler 和 disable_padded_drafter_batch。#4893

  • 在全图模式(full graph mode)下支持 pcp + mtp。#4572

  • 增强 NPUModelRunner 中 MoE 模型的 all-reduce 跳过逻辑。#5329

性能#

一些常规性能改进:

  • 添加 l2norm triton 算子 #4595

  • 为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077

  • 在模型执行时添加异步指数计算。#4501

  • 移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390

  • 为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。

其它#

  • VL 模型上的 OOM 错误现已修复,我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136

  • 修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932

  • 修复了 npu-cpu offloading 接口变更导致的错误。#5290

  • 修复了 aclgraph 模式下 MHA 模型的运行时错误。#5397

  • 修复了 ep=1 场景下不合适的 moe_comm_type。#5388

弃用与重大变更#

  • 移除了 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为 VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常同时启用。#5272

  • 现已废弃 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP#5270

  • 由于在某些 float 权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878

  • 现已废弃 additional_config 中的 chunked_prefill_for_mla#5296

  • additional_config 中的 dump_config 已重命名为 dump_config_path,且类型从 dict 更改为 string#5296

依赖项#

  • vLLM 版本已升级到 0.13.0,并停止对 0.12.0 的支持。#5146

  • Transformer 版本已升级至 >= 4.57.3 #5250

已知问题#

  • Qwen3-Next 不支持长序列场景,运行 Qwen3-Next 时应根据文档限制 gpu-memory-utilization。我们将在下一个版本中改进这一点。

  • 修复了 Qwen3-Next 在输入/输出约为 3.5k/1.5k 时的功能中断问题,但这导致了性能下降。我们将在下一个版本中修复它。#5357

  • DeepSeek-V3.2 中超短序列的 curl 操作存在精度问题。我们将在下一个版本中修复此问题。#5370

v0.11.0 - 2025.12.16#

我们很高兴地宣布 vLLM Ascend v0.11.0 正式发布。这是 v0.11.0 的官方版本。请按照 官方文档 开始使用。如有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。

亮点#

  • 提升了 DeepSeek 3/3.1 的性能。#3995

  • 修复了 Qwen3-VL 的精度错误。#4811

  • 提升了采样(sample)的性能。#4153

  • Eagle3 现已回归。#4721

其它#

  • 提升了 kimi-k2 的性能。#4555

  • 修复了 deepseek3.2-exp 的一个量化错误。#4797

  • 修复了高并发下 qwen3-vl-moe 的错误。#4658

  • 修复了预填充解码解耦(Prefill Decode disaggregation)场景下的一个精度错误。#4437

  • 修复了 EPLB 的一些错误。#4576 #4777

  • 修复了 openEuler Docker 镜像的版本不兼容问题。#4745

弃用公告#

  • LLMdatadist connector 已被弃用,将在 v0.12.0rc1 中移除。

  • Torchair graph 已被弃用,将在 v0.12.0rc1 中移除。

  • Ascend scheduler 已被弃用,将在 v0.12.0rc1 中移除。

升级说明#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • CANN 已升级至 8.3.rc2。

已知问题#

  • 在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。并且如果输入过长,会导致内存溢出(OOM)。我们将在下一个版本中改进此问题。

  • 在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。

  • Qwen2-audio 默认无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适的值,例如 0.8。

  • 如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。

v0.12.0rc1 - 2025.12.13#

这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。

亮点#

  • DeepSeek 3.2 现已稳定且性能得到提升。在此版本中,您无需安装任何其他软件包。请按照 官方教程 开始使用。

  • 现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。

核心#

  • [实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认未启用,但我们建议在大多数情况下通过 --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' 启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中持续改进并默认启用它。

  • 新增了大量 triton 内核。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认未安装且未启用,但我们建议在大多数情况下启用它。您可以从 软件包地址 手动下载并安装。如果您在 X86 架构上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。

  • 新增了大量昇腾算子以提升性能。这意味着从本版本开始,vLLM Ascend 仅在使用自定义算子构建的情况下才能工作。因此,我们移除了环境变量 COMPILE_CUSTOM_KERNELS,您现在无法再将其设置为 0。

  • 推测解码方法 MTP 现已更加稳定。它可以在大多数情况下启用,且解码令牌数量可以设置为 1、2、3。

  • 现已支持推测解码方法 suffix。感谢招商银行的贡献。

  • llm-compressor 量化工具的 W8A8 现已可用。您现在可以直接部署使用该工具生成的 W8A8 量化模型。

  • W4A4 量化现已可用。

  • 支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334

  • 现已支持池化(Pooling)模型,例如 bge、reranker 等。

  • 官方文档已得到改进。我们重构了教程以使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。

其它#

  • [实验性功能] 现已支持 Mooncake 分层连接器。

  • [实验性功能] 新增了 KV 缓存池 功能

  • [实验性功能] 引入了一种新的图模式 xlite。它在某些模型上表现良好。请按照 官方教程 开始使用。

  • 已移除 LLMdatadist kv 连接器。请改用 mooncake 连接器。

  • 已移除 Ascend 调度器。--additional-config {"ascend_scheduler": {"enabled": true}} 不再生效。

  • 已移除 Torchair 图模式。--additional-config {"torchair_graph_config": {"enabled": true}} 不再生效。请改用 aclgraph。

  • 已移除 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION 环境变量。该功能已足够稳定,我们现在默认启用它。

  • 推测解码方法 Ngram 现已回归。

  • 新增了 msprobe 工具以帮助用户检查模型精度。请按照 官方文档 开始使用。

  • 新增了 msserviceprofiler 工具以帮助用户分析模型性能。请按照 官方文档 开始使用。

升级说明#

  • 已移除 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。

  • CANN 已升级至 8.3.RC2,PyTorch 和 torch-npu 已升级至 2.8.0。请勿忘记安装它们。

  • 已停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。

已知问题#

  • DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下个版本中修复此问题。#4990

  • Hunyuan OCR 无法工作。我们将在下个版本中修复此问题。#4989 #4992

  • DeepSeek 3.2 无法与聊天模板配合使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。

  • 在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下个版本中修复此问题。#4996

  • 我们注意到 bf16/fp16 模型性能不佳,这主要是因为默认启用了 VLLM_ASCEND_ENABLE_NZ。请设置 VLLM_ASCEND_ENABLE_NZ=0 来禁用它。我们将在下个版本中添加自动检测机制。

  • 推测解码方法 suffix 无法工作。我们将在下个版本中修复此问题。您可以通过拣选(pick)此提交来修复该问题:#5010

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。

亮点#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • 禁用了 NZ 权重加载器以加速稠密模型。请注意,这是一个临时解决方案。如果您发现性能变差,请告知我们。我们将持续改进。#4495

  • 官方 Docker 镜像中现已安装 mooncake。您现在可以直接在容器中使用它。#4506

其它#

  • 修复了 MoE 模型的 OOM 问题。#4367

  • 修复了多模态模型在 DP>1 运行时出现的卡死问题。#4393

  • 修复了 EPLB 的一些错误。#4416

  • 修复了 mtp>1 + lm_head_tp>1 场景下的错误。#4360

  • 修复了 vLLM serve 长时间运行时可能出现的精度问题。#4117

  • 修复了 qwen2.5 vl 在高并发运行下的功能错误。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。

亮点#

  • CANN 已升级至 8.3.RC2。#4332

  • Ngram 投机解码方法现已回归。#4092

  • 通过更新默认捕获大小提升了 aclgraph 的性能。#4205

核心#

  • 加快 vLLM 启动速度。#4099

  • 支持 Kimi k2 量化版。#4190

  • 修复了 qwen3-next 的一个 bug,现在运行更稳定。#4025

其它#

  • 修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。#4106 #4282

  • 修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。#3711

  • 修复了 EPLB 功能的一些 bug。#4150 #4334

  • 修复了多模态(vl)模型无法在 x86 机器上运行的问题。#4285

  • 预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。#4242

  • 增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。#4315

  • 增加了一项检查,以确保 FLASHCOMM 功能不与视觉语言(vl)模型一同使用。该功能将在 2025 年第四季度得到支持。#4222

  • 容器中已安装音频所需的库。#4324

已知问题#

  • Ray + 专家并行(EP)暂时无法工作。如果您在 Ray 上运行 vLLM Ascend,请禁用专家并行。#4123

  • 目前尚不支持 response_format 参数。我们将很快提供支持。#4175

  • CPU 绑定功能在多实例情况下(如单节点多个数据并行实例)无法使用。我们将在下一个版本中修复此问题。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。

亮点#

  • CANN 已升级至 8.3.RC1。Torch-npu 已升级至 2.7.1。#3945 #3896

  • 前缀缓存(PrefixCache)和分块预填充(Chunked Prefill)默认已启用。#3967

  • 现已支持 W4A4 量化。#3427。官方教程请见 single_npu_qwen3_w4a4

核心#

  • 提升了 Qwen3 和 DeepSeek V3 系列模型的性能。

  • 现已支持 Mooncake 分层连接器 #2602。教程请见 pd_disaggregation_mooncake_multi_node

  • 现已支持多 token 预测(MTP > 1)。#2708

  • [实验性] 现已支持图模式 FULL_DECODE_ONLYFULL 模式将在未来几周内推出。#2128

  • 现已支持池化模型(如 bge-m3)。#3171

其它#

  • 重构了 MoE 模块,使其更清晰易懂,并在量化和非量化场景下均提升了性能。

  • 重构了模型注册模块以方便维护。我们将在 2025 年第四季度移除该模块。#3004

  • Torchair 已被弃用。一旦 ACL Graph 的性能达到预期,我们将移除它,截止日期为 2026 年第一季度。

  • LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。

  • 重构了线性模块,以支持 flashcomm 论文中的 flashcomm1 和 flashcomm2 特性。#3004 #3334

已知问题#

  • 在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。

  • Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。

  • 在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器的一个 bug,我们正在修复中。

  • Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为一个合适的值,例如 0.8。

  • 当启用专家并行运行 Qwen3-Next 时,请将 HCCL_BUFFSIZE 环境变量设置为合适的值,例如 1024。

  • 在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已支持 DeepSeek V3.2。#3270

  • 现已支持 Qwen3-vl。#3103

核心#

  • DeepSeek 现在可以与 aclgraph 协同工作。#2707

  • MTP 现在可以与 aclgraph 协同工作。#2932

  • 现已支持 EPLB。#2956

  • 现已支持 Mooncake 存储 KV Cache 连接器。#2913

  • 现已支持 CPU 卸载连接器。#1659

其他#

  • Qwen3-next 现已稳定。#3007

  • 修复了 v0.10.2 中由 Qwen3-next 引入的大量 bug。#2964 #2781 #3070 #3113

  • LoRA 功能现已恢复。#3044

  • Eagle3 投机解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 新增对 Qwen3-Next 的支持。请注意,此版本暂不支持专家并行和 MTP 功能,我们将很快添加相关支持。请参考 官方指南 开始使用。#2917

  • 为 aclgraph 增加了量化支持。#2841

核心#

  • Aclgraph 现在支持 Ray 后端。#2589

  • MTP 现在支持多 token(token > 1)场景。#2708

  • Qwen2.5 VL 现已支持量化。#2778

  • 提升了启用异步调度器时的性能。#2783

  • 修复了使用默认调度器时非 MLA 模型的性能回退问题。#2894

其他#

  • W8A8 量化的性能得到提升。#2275

  • MoE 模型的性能得到提升。#2689 #2842

  • 修复了应用投机解码和 aclgraph 时出现的资源限制错误。#2472

  • 修复了 Docker 镜像中的 git 配置错误。#2746

  • 修复了预填充阶段滑动窗口注意力的 bug。#2758

  • 新增了 Qwen3 预填充-解码解耦的官方文档。#2751

  • 环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已恢复生效。#2740

  • 为 DeepSeek 的 oproj 新增了一项优化。设置 oproj_tensor_parallel_size 即可启用此功能。#2167

  • 修复了设置 graph_batch_sizes 时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760

  • 避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744

  • 通过 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1VLLM_ASCEND_ENABLE_FLASHCOMM=1 即可启用。#2779

  • 通过预取功能提升了 Qwen3 密集模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 即可启用。#2816

  • 通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571

  • 修复了 RLHF 场景下的权重加载错误。#2756

  • 新增 warm_up_atb 步骤以加速推理。#2823

  • 修复了 MoE 模型在 aclgraph 模式下的流错误。#2827

已知问题#

  • 当在预填充和解码阶段使用不同的 TP 大小运行预填充-解码解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此提交来修复该问题。

  • Qwen3-Next 的 HBM 使用率高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将 max_model_lengpu_memory_utilization 设置为合适的值,以避免内存溢出错误。

  • 我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941

  • 在使用 Ascend 调度器时,请勿同时启用分块预填充和前缀缓存,否则性能和精度将不理想或不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 通过招商银行贡献的自定义内核,LoRA 性能得到大幅提升。#2325

  • 支持 Mooncake TransferEngine 用于 KV Cache 注册,并实现了 pull_blocks 样式的解耦预填充。#1568

  • 现在支持将自定义算子捕获到 aclgraph 中。#2113

核心#

  • 新增了 MLP 张量并行以提升性能,但请注意这会增加内存使用。#2120

  • openEuler 已升级至 24.03 版本。#2631

  • 新增了自定义 lmhead 张量并行,以降低内存消耗并提升 TPOT 性能。#2309

  • Qwen3 MoE 和 Qwen2.5 现在支持 torchair 图模式。#2403

  • 在 AscendScheduler 中支持滑动窗口注意力,从而修复了 Gemma3 的精度问题。#2528

其他#

  • Bug 修复:

    • 更新了图捕获大小的计算方式,在一定程度上缓解了某些场景下 NPU 流不足的问题。#2511

    • 修复了相关 bug 并重构了缓存掩码生成逻辑。#2442

    • 修复了 NZ 格式在量化场景下无法工作的问题。#2549

    • 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列模型精度问题。#2457

    • 修复了 RoPE 维度与 Head 维度不一致的模型(如 GLM4.5)的精度问题。#2601

  • 通过大量 PR 提升了性能:

    • 移除了 torch.cat 并替换为 List[0]。#2153

    • 将 GMM 的格式转换为 NZ。#2474

    • 优化了并行策略以减少通信开销。#2198

    • 优化了贪婪搜索(greedy)场景下的拒绝采样器(reject sampler)。#2137

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 MLA 相关代码。#2465

    • 重构了 torchair 的 fused_moe 部分。#2438

    • 重构了与 allgather/mc2 相关的 fused_experts 部分。#2369

    • 重构了 torchair 的模型运行器(model runner)。#2208

    • 重构了 CI(持续集成)流程。#2276

  • 参数变更:

    • additional_config 中增加了 lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309

    • 移除了若干不再使用的环境变量:HCCN_PATHPROMPT_DEVICE_IDDECODE_DEVICE_IDLLMDATADIST_COMM_PORT 以及 LLMDATADIST_SYNC_CACHE_WAIT_TIME#2448

    • 环境变量 VLLM_LLMDD_RPC_PORT 现已更名为 VLLM_ASCEND_LLMDD_RPC_PORT#2450

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120

    • 从环境变量中移除了 MOE_ALL2ALL_BUFFERVLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ#2612

    • additional_config 中增加了 enable_prefetch,用于控制是否启用权重预取。#2465

    • additional_config.torchair_graph_config 中增加了 mode 参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461

    • additional_config 中的 enable_shared_expert_dp 现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457

已知问题#

  • 滑动窗口注意力(Sliding window attention)目前不支持分块预填充(chunked prefill),因此只能配合 AscendScheduler 运行。#2729

  • 在启用多流(MultiStream)时创建 mc2_mask 存在一个 bug,将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南

请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。

亮点#

  • 已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程大规模专家并行

  • Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。

  • 支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。

  • 投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。

  • 现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南

  • V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程

  • 增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。

注意#

以下说明特别供从上一个正式版本(v0.7.3)升级时参考:

  • 从此版本起不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。

  • 此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。

  • Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。

核心#

  • 为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。

  • 结构化输出(Structured output)功能现在可以在 V1 引擎上运行。

  • 增加了一批自定义算子以提升性能。

变更#

  • Qwen3-moe 模型现已支持 EPLB。#2000

  • 修复了 MTP 在预填充-解码解耦场景下表现不佳的问题。#2610 #2554 #2531

  • 修复了若干 bug 以确保预填充-解码解耦能够正常工作。#2538 #2509 #2502

  • 修复了 torchair 模式下使用 shutil.rmtree 导致的“文件未找到”错误。#2506

已知问题#

  • 运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。

  • 此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。

  • 如果在 eager 模式下使用 w4a8 量化,请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免显存溢出(OOM)。

  • 使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654

  • 我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。

核心#

  • MTP 现在支持 V1 调度器。#2371

  • 增加了 LMhead 张量并行(TP)通信组。#1956

  • 修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478

  • 修复了由过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask 索引越界(IndexError)错误。#2314

  • 移除了 chunked_prefill_for_mla 参数。#2177

  • 修复了 bug 并重构了缓存掩码生成逻辑。#2326

  • 修复了关于 Ascend 调度器的配置检查逻辑。#2327

  • 在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368

  • 修复了 Ray 分布式后端失效的问题。#2306

  • 修复了 Ascend 调度器中错误的请求块长度。#2394

  • 修复了 RoPE 中的头文件包含问题。#2398

  • 修复了 MTP 的配置 bug。#2412

  • 修正了错误信息并适配了 attn_metadata 的重构。#2402

  • 修复了因配置不匹配及 .kv_cache_bytes 文件缺失导致的 torchair 运行错误。#2312

  • with_prefill 阶段的 allreduce 从 CPU 迁移至 NPU。#2230

文档#

  • 增加了 DeepSeek 大规模专家并行(EP)的文档。#2339

已知问题#

  • 修复了 A2 (910B1) 上开启 "full_cuda_graph": Truetest_aclgraph.py 失败的问题。#2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。

亮点#

  • 解耦预填充(Disaggregate prefill)现在已支持 V1 引擎。您可以按照此 教程 在 DeepSeek 模型上进行尝试。#950

  • Dense 和 MoE 模型现在已支持 W4A8 量化方法。#2060 #2172

核心#

  • Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724#1562。CANN 已升级至 8.2.RC1#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。

  • vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582

  • vLLM Ascend 现已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162

  • V1 引擎现已支持流水线并行(Pipeline Parallelism)。#1800

  • 前缀缓存(Prefix cache)功能现在可与 Ascend 调度器协同工作。#1446

  • Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508

  • MTP 现在支持 torchair 图模式。#2145

其他#

  • Bug 修复:

    • 修复了 Qwen2-audio 等多模态模型在 Aclgraph 模式下的功能问题。#1803

    • 修复了外部启动场景下进程组创建错误的问题。#1681

    • 修复了引导式解码(guided decoding)的功能问题。#2022

    • 修复了数据并行(DP)场景下常见 MoE 模型的精度问题。#1856

  • 通过大量 PR 提升了性能:

    • 将 sin/cos 进行缓存,而非在每一层都重新计算。#1890

    • 改进了共享专家(shared expert)的多流并行性。#1891

    • 实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1 可启用此特性。#1926

    • 通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195

    • 在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806

    • 使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555

    • 提升了 LoRA 的性能。#1884

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 Torchair 模型运行器(model runner)。#2205

    • 重构了 forward_context 和 model_runner_v1。#1979

    • 重构了 AscendMetaData 的注释。#1967

    • 重构了 torchair 工具类(utils)。#1892

    • 重构了 torchair 工作进程(worker)。#1885

    • 通过注册激活自定义算子代替重写 forward_oot。#1841

  • 参数变更:

    • additional_config 中的 expert_tensor_parallel_size 现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681

    • 增加了环境变量 VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用 MatmulAllReduce 融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。

  • 在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。

  • 序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209

  • 现已增加中文在线文档。#1870

已知问题#

  • 目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229

  • 在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232

  • 在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246

  • MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254

  • 当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录器(metrics logger)。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • MoE 和 Dense 模型现已支持 w4a8 量化:#1320 #1910 #1275 #1480

  • #1943 中增加了对动态 EPLB 的支持。

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)并进行了改进。持续对解耦预填充特性进行开发和稳定化处理,包括单机环境下的性能提升和 bug 修复:#1953 #1612 #1361 #1746 #1552 #1801 #2083 #1989

模型改进#

图模式改进#

  • #1269 中修复了 DeepSeek 与 mc2 配合使用的问题。

  • #1332 中修复了 DeepSeek V3/R1 模型在使用 TorchAir 图模式进行长序列预测时的精度问题。

  • #1570 中修复了 torchair_graph_batch_sizes 错误。

  • #1404 中为 TorchAir 图模式启用了 tp <= 4 的限制。

  • 修复 RoPE 精度错误 #1887

  • 在 FusedMoE 中支持共享专家的多流处理 #997

  • 在 TorchAir 图模式的解码过程中启用 kvcache_nz #1098

  • 修复 TorchAir 下的分块预填充场景,解决 #1378 中的 UnboundLocalError: local variable 'decode_hs_or_q_c' 问题。

  • #1561 中提升了 w8a8 动态量化下共享专家的多流性能。

  • 修复设置多流时的 MoE 错误 #1882

  • 在 EP 场景下将图批次大小向上取整至 TP 大小的倍数 #1610

  • 修复启用 DP 时的 TorchAir 错误 #1727

  • torchair_graph_config 添加额外检查 #1675

  • 修复 TorchAir + 分块预填充场景下的 RoPE 错误 #1693

  • 修复 chunked_prefill 为 true 时的 torchair_graph 错误 #1748

  • 改进预填充优化以支持 TorchAir 图模式 #2090

  • 修复 DP 场景下的 rank 设置问题 #1247

  • 重置所有未使用的位置以防止越界,从而解决 GatherV3 错误 #1397

  • 移除 ModelRunner 中重复的多模态代码 #1393

  • 修复块表形状以解决精度问题 #1297

  • 在受限场景下实现初步的全图模式 #1503

  • 为提升性能,在全图模式中恢复分页注意力内核 #1677

  • 修复极端 --gpu-memory-utilization 设置下的 DeepSeek OOM 问题 #1829

  • 在启用 TorchAir 时关闭 aclgraph #2154

算子改进#

  • 新增自定义 AscendC 内核 vocabparallelembedding #796

  • 修复了 RoPE sin/cos 缓存错误 #1267

  • 重构了 AscendFusedMoE (#1229) #1264

  • 在采样器中使用了融合算子 npu_top_k_top_p #1920

核心#

  • 将 CANN 升级至 8.2.rc1 #2036

  • 将 torch-npu 升级至 2.5.1.post1 #2135

  • 将 Python 升级至 3.11 #2136

  • 禁用了 mindie_turbo 中的量化 #1749

  • 修复了 V0 投机解码 #1323

  • 仅在使用 V0 投机解码时直接启用 ACL_OP_INIT_MODE=1 #1271

  • 重构了 forward_contextmodel_runner_v1 #1422

  • 修复了采样参数 #1423

  • 增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ #1409

  • 修复了 ascend_forward_context 中的错误 #1449 #1554 #1598

  • 通过处理 PrefillCacheHit 状态修复了前缀缓存精度错误 #1492

  • 修复了权重加载错误并增加了新的端到端测试用例 #1651

  • 优化了 DeepSeek 中与 RoPE 相关的索引选择次数 #1614

  • 增加了 mc2 掩码 #1642

  • 修复了静态 EPLB 的 log2phy 条件并改进了单元测试 #1667 #1896 #2003

  • 为预填充增加了分块 mc2 #1703

  • 修复了 mc2 算子的 GroupCoordinator 错误 #1711

  • 修复了无法识别实际量化类型的问题 #1721

  • 修复了 DeepSeek 在 tp_size == 1 时的错误 #1755

  • 增加了预填充节点对无延迟块的支持 #1691

  • 针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO #1547

  • 适配了 dispatchV2 接口 #1822

  • 修复了解耦预填充在长输出时的挂起问题 #1807

  • 修复了 V0 引擎下的 flashcomm_v1 问题 #1859

  • 修复了某些情况下 ep_group 不等于 word_size 的问题 #1862

  • 修复了 wheel 包 glibc 版本不兼容的问题 #1808

  • 修复了 mc2 进程组以解决 self.cpu_group 为 None 的问题 #1831

  • 将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查 #1904

  • 为 MoE 应用了 npu_moe_gating_top_k_softmax 以提升性能 #1902

  • 修复了 V0 引擎下 path_decorator 的 bug #1919

  • 避免了在解耦预填充场景下执行 CPU all_reduce #1644

  • 为解码阶段的 MoE 增加了 super kernel #1916

  • [预填充性能] 并行策略优化(显存换速度的权衡) #1802

  • 移除了 shared_experts.down_proj 中不必要的 reduce_results 访问 #2016

  • 通过向量化优化了 greedy reject 采样器 #2002

  • 实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode) #1936

  • 修复了 DeepSeek 模型在启用 tp > 1 和 multistream_moe 时,共享专家与路由专家之间的形状冲突问题 #2075

  • 增加了 CPU 绑定支持 #2031

  • #2129 中增加了 with_prefill CPU allreduce 以处理 D 节点的重计算。

  • #2038 中增加了 D2H 和 initRoutingQuantV2 以提升预填充性能。

文档#

  • 提供了执行时长分析(duration profiling)的端到端指南。#1113

  • 为 CANN 软件包下载链接添加了 Referer 请求头。#1192

  • 增加了重新安装说明文档。#1370

  • 更新了解耦预填充(Disaggregate prefill)的 README。#1379

  • 针对 KV Cache 注册方式实现了解耦预填充。#1296

  • #1965 中修复了 examples/disaggregate_prefill_v1/README.md 中的错误和不规范之处。

已知问题#

  • 在开启 full_cuda_graph 启用时,某些特定硬件类型尚不支持全图模式。#2182

  • Qwen3 MoE 在启用 EP 时,由于 bincount 错误导致带 TP 的 aclgraph 模式失败。#2226

  • 正如 v0.9.1rc1 发布说明中所提到的,此版本将不包含对 Atlas 300I 系列的支持。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请遵循官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。

亮点#

  • Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359

  • Atlas 300I 系列的性能已经提升。 #1591

  • aclgraph 模式现在可以与 Moe 模型一起使用。目前,仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347

  • GatherV3 错误已在 aclgraph 模式下修复。#1416

  • W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560

  • 修复了使用并行参数部署模型时的准确性问题。#1678

  • 预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

  • 官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。

  • 修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331

  • 新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为 0#1335

  • 新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732

  • 已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478

  • DeepSeek 的性能已得到提升:#1194 #1395 #1380

  • Ascend 调度器现在支持前缀缓存。#1446

  • DeepSeek 现在支持前缀缓存了。#1498

  • 在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483

已知问题#

新贡献者#

完整更新日志: vllm-project/vllm-ascend

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

实验性功能#

  • 本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333

  • 支持 EAGLE-3 进行推测式解码。#1032

经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235

  • 支持 Atlas 300I 系列的容器镜像。您可以从 quay.io 获取。

  • 修复了按 token 填充的机制,以使多卡图模式正常工作。#1300

  • 将 vLLM 升级到 0.9.1 #1165

其他改进#

  • 为 MLA 初步支持分块预填充(Chunked Prefill)。#1172

  • 新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101

  • 提升了 DeepSeek 在使用 TorchAir 图模式时的性能。#1098, #1131

  • 支持在 AscendScheduler 中使用推测式解码功能。#943

  • 提升了 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796

  • 修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884

  • DeepSeek 现在可以与 MC2(计算通信融合)正常配合工作。#1268

  • 修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186

  • 提升了启用 DBO 时 DeepSeek 的性能。#997, #1135

  • 重构 AscendFusedMoE #1229

  • 新增初始用户故事页面(包含 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224

  • 新增单元测试框架 #1201

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在处理此问题,并将在下一个版本中修复。#1038

  • 在未启用分块预填充的情况下,前缀缓存功能无法与 Ascend 调度器配合使用。此问题将在下一个版本中修复。#1350

完整更新日志#

vllm-project/vllm-ascend

新贡献者#

完整更新日志: vllm-project/vllm-ascend

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。

亮点#

  • 修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。

亮点#

  • DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789

  • Qwen 系列模型现在支持图模式,且在 V1 引擎中默认启用。请注意,在本次发布中,仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中提升其稳定性并使其更通用。如果您遇到任何问题,请随时在 GitHub 上提交 issue,并在初始化模型时通过设置 enforce_eager=True 临时回退到 eager 模式。

核心#

  • 多步调度器(multi-step scheduler)的性能已得到提升。感谢招商银行的贡献。#814

  • V1 引擎现在支持 LoRA、多 LoRA(Multi-LoRA)以及动态服务。感谢招商银行的贡献。#893

  • 前缀缓存(Prefix cache)和分块预填充(chunked prefill)功能现已可用。#782 #844

  • 推测解码(Spec decode)和 MTP 功能现在已支持 V1 引擎。#874 #890

  • 数据并行(DP)功能现在支持 DeepSeek 模型。#1012

  • 输入嵌入(Input embedding)特性现在已支持 V0 引擎。#916

  • 休眠模式(Sleep mode)功能现在已支持 V1 引擎。#1084

模型#

  • Qwen2.5 VL 现在支持 V1 引擎。#736

  • Llama4 模型现在已支持。#740

  • 新增了一种名为双批次重叠(dual-batch overlap, DBO)的 DeepSeek 模型支持。请设置 VLLM_ASCEND_ENABLE_DBO=1 来使用它。#941

其他#

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理此问题,并将在下一版本中修复。

  • 多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包含以下更改:

亮点#

  • 现已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已通过充分测试,欢迎试用。推荐使用 MindIE Turbo 以提升 Qwen3 的性能。#903 #915

  • 新增了性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能,包括操作系统配置、库优化、部署指南等。#878 文档链接

漏洞修复#

  • Qwen2.5-VL 现已支持 RLHF 场景。#928

  • 用户现在可以直接通过在线权重启动模型,例如直接从 HuggingFace 或 ModelScope 加载。#858 #918

  • 已清理无意义的日志信息 UserWorkspaceSize0#911

  • Failed to import vllm_ascend_C 的日志级别已由 error 更改为 warning#956

  • DeepSeek MLA 现已在 V1 引擎中支持分块预填充(Chunked Prefill)。请注意,0.7.3 中的 V1 引擎仍处于实验阶段,仅供测试使用。#849 #936

文档#

  • 基准测试文档已针对 Qwen2.5 和 Qwen2.5-VL 完成更新。#792

  • 添加了说明,明确只有 modelscope<1.23.0 版本能与 0.7.3 兼容。#954

v0.7.3 - 2025.05.08#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。

亮点#

  • 本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1v0.7.3rc1v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵模型支持矩阵

  • 将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。

  • 将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662

  • 将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708

核心#

  • 现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700

模型#

  • 提升了 Qwen2 VL 和 Qwen2.5 VL 的性能。#702

  • 优化了 apply_penaltiestopKtopP 算子的性能。#525

其他#

  • 修复了可能导致 CPU 内存泄漏的问题。#691#712

  • 新增了环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到 SOC 检测错误,请将 SOC_VERSION 设置为合适的值。#606

  • 支持 openEuler 容器镜像,标签为 v0.7.3-openeuler#665

  • 前缀缓存功能现已在 V1 引擎上可用。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵

亮点#

  • 将 CANN 升级至 8.1.RC1,以支持在启用 V1 引擎时的分块预填充和自动前缀缓存(--enable_prefix_caching)。#747

  • 优化了 Qwen2 VL 和 Qwen 2.5 VL。#701

  • 提升了 DeepSeek V3 的 Eager 模式和图模式性能,您现在可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。 #598 #719

核心#

  • 将 vLLM 升级到 0.8.5.post1。#715

  • 修复了在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题。#682

  • 适配了由 modelslim 生成的新量化模型。#719

  • 初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694

  • 使用 /vllm-workspace 作为代码路径,并在容器镜像中包含 .git 目录,以修复在 /workspace 下启动 vLLM 时的问题。#726

  • 优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728

  • 修复了 setup.pyPYTHON_INCLUDE_PATH 的拼写错误。#762

其他#

  • 添加了 Qwen3-0.6B 测试。#717

  • 添加了每晚持续集成(Nightly CI)。#668

  • 添加了精度测试报告。#542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。

亮点#

  • 现已支持 Qwen3 和 Qwen3MOE。请参考官方文档运行快速示例。#709

  • 现已支持 Ascend W8A8 量化方法。详情请参考官方文档示例。欢迎提供任何反馈#580

  • DeepSeek V3/R1 现已支持数据并行(DP)、张量并行(TP)和多令牌预测(MTP)。请注意,此功能仍处于实验阶段。如遇任何问题,请告知我们。#429 #585 #626 #636 #671

核心#

  • V1 引擎现已支持 ACLGraph 特性。由于该特性依赖 CANN 8.1 版本,目前默认禁用。我们将在下一个版本中默认启用此特性。#426

  • 已将 PyTorch 升级至 2.5.1。vLLM Ascend 不再依赖 torch-npu 的开发版本。用户现在无需手动安装 torch-npu,2.5.1 版本的 torch-npu 将自动安装。#661

其他#

  • MiniCPM 模型现已支持。#645

  • 现已支持带有 v0.8.4-openeuler 标签的 openEuler 容器镜像,并且在 openEuler 操作系统上默认启用自定义算子构建。#689

  • 修复了导致 LoRA 无法运行的 ModuleNotFoundError 错误。#600

  • 新增了“使用 EvalScope 进行评估”的文档。#611

  • 新增 VLLM_VERSION 环境变量,使 vLLM 版本可配置,便于开发者在本地手动修改 vLLM 代码后设置正确的版本号。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策

亮点#

  • 本版本包含对 vLLM V1 引擎的实验性支持。更多详情请访问官方指南。默认情况下,若 V1 无法运行,vLLM 会自动回退到 V0;若需强制使用 V1,请设置环境变量 VLLM_USE_V1=1

  • 现已支持 LoRA、多 LoRA(Multi-LoRA)及动态服务(Dynamic Serving)。性能将在下个版本优化。用法详见官方文档。感谢招商银行的贡献。#521.

  • 支持休眠模式(Sleep Mode)。目前仅支持 V0 引擎,V1 引擎的支持即将推出。#513

核心#

  • 为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543

  • 支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南#432

  • 推测解码(Speculative Decoding)功能现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500

  • 结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555

其他#

  • 新增了通信器 pyhccl,用于直接调用 CANN HCCL 库而非通过 torch.distribute。更多用法将在下个版本加入。#503

  • 默认启用自定义算子构建。从源码编译 vllm-ascend 前请确保已安装 gcccmake 等包。如无需编译算子,可设置环境变量 COMPILE_CUSTOM_KERNELS=0#466

  • 自定义算子 rotary embedding 现已默认启用以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。

亮点#

  • 新增 Ascend 自定义算子框架,开发者现在可以使用 AscendC 编写自定义算子。已添加示例算子 rotary_embedding,更多教程即将推出。默认安装时不编译自定义算子,可设置 COMPILE_CUSTOM_KERNELS=1 启用。#371

  • 本版本提供了 V1 引擎的基础支持,完整支持将在 0.8.X 版本完成。若您遇到任何问题或有任何 V1 引擎的需求,请在此问题中告知我们。#376

  • 前缀缓存功能现已可用。您可以通过设置 enable_prefix_caching=True 启用它。#282

核心#

  • 将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出 !!! 的问题。#406

模型#

  • 通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398

其他#

  • 修复了一个错误以确保多步调度器功能正常工作。#349

  • 修复了一个错误以确保前缀缓存功能在正确的精度下工作。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。

亮点#

  • DeepSeek V3/R1 现已能够良好运行。请参阅官方指南开始使用!#242

  • 支持推测解码功能。#252

  • 支持多步调度器功能。#300

核心#

  • 将 torch_npu 版本升级至 dev20250308.3 以提升 _exponential 的精度。

  • 新增对池化模型的初步支持。基于 BERT 的模型,例如 BAAI/bge-base-en-v1.5BAAI/bge-reranker-v2-m3 现已可用。#229

模型#

  • 提升了 Qwen2-VL 的性能。#241

  • 现已支持 MiniCPM 模型。#164

其他#

  • 为 DeepSeek V3/R1 提供多令牌预测(MTP)支持。#236

  • 【文档】新增了更多模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参阅官方文档

  • 在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决:vllm-project/vllm#13807

已知问题#

  • 某些情况下,尤其是当输入/输出非常长时,输出精度可能不正确。我们正在处理此问题,将在下一个版本中修复。

  • 改进并减少了模型输出中的乱码。但如果您仍然遇到此问题,请尝试更改生成配置值,例如 temperature,然后重试。下方还有一个已知问题。欢迎提供任何反馈#277

v0.7.1rc1 - 2025.02.19#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选发布版本。

vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能与改进。

请遵循官方文档开始您的旅程。请注意,这是一个候选发布版本,可能存在一些错误或问题。我们感谢您的反馈和建议,请通过此问题提交。

亮点#

  • 在 vLLM 上提供对 Ascend NPU 的初步支持。#3

  • 现已支持 DeepSeek 模型。#88 #68

  • 同时支持 Qwen、Llama 系列及其他流行模型,您可以在 supported_models 中查看更多详情。

核心#

  • 新增了 Ascend 量化配置选项,具体实现即将推出。#7 #73

  • 添加了 silu_and_mul 和 rope 算子,并将混合算子集成到注意力层中。#18

其他#

  • 【CI】启用 Ascend CI 以主动监控并提升 vLLM 在 Ascend 上的质量。#3

  • 【Docker】新增 vllm-ascend 容器镜像。#64

  • 【文档】新增了在线文档#55

已知问题#

  • 本版本依赖于一个尚未正式发布的 torch_npu 版本,该版本已预装在官方容器镜像中。若您在非容器环境下运行,请手动安装

  • 运行 vllm-ascend 时可能会出现类似 No platform detected, vLLM is running on UnspecifiedPlatformFailed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'") 的日志。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。

  • 运行 vllm-ascend 时可能会出现类似 # CPU blocks: 35064, # CPU blocks: 2730 的日志,其本应显示为 # NPU blocks:。这实际上不影响任何功能与性能,您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 版本中。