版本说明

目录

版本说明#

v0.13.0 - 2026.02.06#

This is the final release of v0.13.0 for vLLM Ascend. Please follow the official doc to get started.

亮点#

Model Support

  • DeepSeek-R1 & DeepSeek-V3.2: [Experimental]Performance optimizations, and async scheduling enhancements. #3631 #3900 #3908 #4191 #4805

  • Qwen3-Next: [Experimental]Full support for Qwen3-Next series including 80B-A3B-Instruct with full graph mode, MTP, quantization (W8A8), NZ optimization, and chunked prefill. Fixed multiple accuracy and stability issues. #3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770

  • InternVL: Added support for InternVL models with comprehensive e2e tests and accuracy evaluation. #3796 #3964

  • LongCat-Flash: [Experimental]Added support for LongCat-Flash model. #3833

  • minimax_m2: [Experimental]Added support for minimax_m2 model. #5624

  • Whisper & Cross-Attention: [Experimental]Added support for cross-attention and Whisper models. #5592

  • Pooling Models: [Experimental]Added support for pooling models with PCP adaptation and fixed multiple pooling-related bugs. #3122 #4143 #6056 #6057 #6146

  • PanguUltraMoE: [Experimental]Added support for PanguUltraMoE model. #4615

Core Features

  • Context Parallel (PCP/DCP): [Experimental] Added comprehensive support for Prefill Context Parallel (PCP) and Decode Context Parallel (DCP) with ACLGraph, MTP, chunked prefill, MLAPO, and Mooncake connector integration. This is an experimental feature - feedback welcome. #3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672

  • Full Graph Mode (ACLGraph): [Experimental]Enhanced full graph mode with GQA support, memory optimizations, unified logic between ACLGraph and Torchair, and improved stability. #3560 #3970 #3812 #3879 #3888 #3894 #5118

  • Multi-Token Prediction (MTP): Significantly improved MTP support with chunked prefill for DeepSeek, quantization support, full graph mode, PCP/DCP integration, and async scheduling. MTP now works in most cases and is recommended for use. #2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477

  • Eagle Speculative Decoding: Eagle spec decode now works with full graph mode and is more stable. #5118 #4893 #5804

  • PD Disaggregation: Set ADXL engine as default backend for disaggregated prefill with improved performance and stability. Added support for KV NZ feature for DeepSeek decode node. #3761 #3950 #5008 #3072

  • KV Pool & Mooncake: Enhanced KV pool with Mooncake connector support for PCP/DCP, multiple input suffixes, and improved performance of Layerwise Connector. #3690 #3752 #3849 #4183 #5303

  • EPLB (Elastic Prefill Load Balancing): [Experimental]EPLB is now more stable with many bug fixes. Mix placement now works. #6086

  • Full Decode Only Mode: Added support for Qwen3-Next and DeepSeekv32 in full_decode_only mode with bug fixes. #3949 #3986 #3763

  • Model Runner V2: [Experimental]Added basic support for Model Runner V2, the next generation of vLLM. It will be used by default in future releases. #5210

功能#

  • W8A16 Quantization: [Experimental]Added new W8A16 quantization method support. #4541

  • UCM Connector: [Experimental]Added UCMConnector for KV Cache Offloading. #4411

  • Batch Invariant: [Experimental]Implemented basic framework for batch invariant feature. #5517

  • Sampling: Enhanced sampling with async_scheduler and disable_padded_drafter_batch support in Eagle. #4893

Hardware and Operator Support#

  • Custom Operators: Added multiple custom operators including:

    • Fused matmul/reduce-scatter kernel #3693

    • mrope fusion op #3708

    • Triton chunk_gated_delta_rule ops for Qwen3-Next #4070

    • l2norm triton kernel #4595

    • RejectSampler, MoeInitRoutingCustom, DispatchFFNCombine custom ops

  • Operator Fusion: Added AddRmsnormQuant fusion pattern with SP support and inductor fusion for quantization. #5077 #4168

  • MLA/SFA: Refactored SFA into MLA architecture for better maintainability. #3769

  • FIA Operator: Adapted to npu_fused_infer_attention_score with flash decoding function. To optimize performance in small batch size scenarios, this attention operator is now available. Please refer to item 22 in FAQs to enable it. #4025

  • CANN 8.5 Support: Removed CP redundant variables after FIA operator enables for CANN 8.5. #6039

性能#

Many custom ops and triton kernels were added in this release to speed up model performance:

  • DeepSeek Performance: [Experimental]Improved performance for DeepSeek V3.2 by eliminating HD synchronization in async scheduling and optimizing memory usage for MTP. #4805 #2713

  • Qwen3-Next Performance: [Experimental]Improved performance with Triton ops and optimizations. #5664 #5984 #5765

  • FlashComm: Enhanced FlashComm v2 optimization with o_shared linear and communication domain fixes. #3232 #4188 #4458 #5848

  • MoE Optimization: Optimized all2allv for MoE models and enhanced all-reduce skipping logic. #3738 #5329

  • Attention Optimization: Moved attention update stream out of loop, converted BSND to TND format for long sequence optimization, and removed transpose step after attention switching to transpose_batchmatmul. #3848 #3778 #5390

  • Quantization Performance: Moved quantization before allgather in Allgather EP. #3420

  • Layerwise Connector: [Experimental]Improved performance of Layerwise Connector. #5303

  • Prefix Cache: Improved performance of prefix cache features. #4022

  • Async Scheduling: Fixed async copy and eliminated hangs in async scheduling. #4113 #4233

  • Memory Operations: Removed redundant D2H operations and deleted redundant operations in model_runner. #4063 #3677

  • Rope Embedding: Optimized rope embedding with triton kernel for huge performance gain. #5918

  • Sampling: Added support for advanced apply_top_k_top_p without top_k constraint. #6098

  • Multimodal: Parallelized Q/K/V padding in AscendMMEncoderAttention for better performance. #6204

依赖关系#

  • CANN: Upgraded to 8.5.0 #6112

  • torch-npu: Upgraded to 2.8.0.post2. It's installed in the docker container by default.

  • triton-ascend: Upgraded to 3.2.0 #6105

  • vLLM: Upgraded to 0.13.0 and dropped 0.12.0 support. #5146

  • Transformers: Upgraded to >= 4.57.4 #5250

弃用及重大变更#

  • CPUOffloadingConnector is deprecated. We'll remove it in the next release. It'll be replaced by CPUOffload feature from vLLM in the future.

  • ProfileExecuteDuration feature is deprecated.

  • Ascend Scheduler has been dropped. #4623

  • Torchair has been dropped. #4814

  • VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE is removed and VLLM_ASCEND_ENABLE_PREFETCH_MLP is recommended to replace as they were always enabled together. #5272

  • VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP is dropped now. #5270

  • VLLM_ASCEND_ENABLE_NZ is disabled for float weight case, since we noticed that the performance is not good in some float cases. Feel free to set it to 2 if you make sure it works for your case. #4878

  • chunked_prefill_for_mla in additional_config is dropped now. #5296

  • dump_config in additional_config is renamed to dump_config_path and the type is changed from dict to string. #5296

  • --task parameter for embedding models is deprecated. #5257

  • The value of VLLM_ASCEND_ENABLE_MLAPO env will be set to True by default in the next release. It'll be enabled in decode node by default. Please note that this feature will cost more memory. If you are memory sensitive, please set it to False.

Documentation#

  • Added comprehensive developer guides for ACLGraph, MTP, KV Pool, EPLB, and PD disaggregation features

  • Added tutorials for multiple models including DeepSeek-V3.2-Exp, Qwen3-Next, and various multimodal models

  • Updated FAQ and configuration documentation

其他#

  • OOM Fix: OOM error on VL models is fixed now. We're keeping observing it. If you hit OOM problem again, please submit an issue. #5136

  • Qwen3-Next-MTP Accuracy: Fixed an accuracy bug of Qwen3-Next-MTP when batched inferring. #4932

  • ZMQ Bug Fix: Fixed zmq send/receive failed bug. #5503

  • Weight Transpose: Fixed weight transpose in RL scenarios. #5567

  • Eagle3 SP: Adapted SP to eagle3. #5562

  • GLM4.6 MTP: GLM4.6 now supports MTP with fullgraph. #5460

  • Flashcomm2 Oshard: Flashcomm2 now works with oshard generalized feature. #4723

  • Fine-grained Shared Expert Overlap: Support fine-grained shared expert overlap. #5962

已知问题#

  • Due the upgrade of transformers package, some models quantization weight, such as qwen2.5vl, gemma3, minimax, may not work. We'll fix it in the next post release. #6302

  • The performance of Qwen3-32B will not be good with 128K input case, it's suggested to enable pcp&dcp feature for this case. This will be improved in the next CANN release.

  • The performance of Qwen3-235B, Qwen3-480B under prefill-decode scenario and EP=32 scenario is not good as expect. We'll improve it in the next post release.

  • When deploy deepseek3.1 under prefill-decode scenario, please make sure the tp size for decode node is great than 1. TP=1 doesn't work. This will be fixed in the next CANN release.

v0.13.0rc2 - 2026.01.24#

This is the second release candidate of v0.13.0 for vLLM Ascend. In this rc release, we fixed lots of bugs and improved the performance of many models. Please follow the official doc to get started. Any feedback is welcome to help us to improve the final version of v0.13.0.

亮点#

We mainly focus on quality and performance improvement in this release. The spec decode, graph mode, context parallel and EPLB have been improved significantly. A lot of bugs have been fixed and the performance has been improved for DeepSeek3.1/3.2, Qwen3 Dense/MOE models.

功能#

  • implement basic framework for batch invariant #5517

  • Eagle spec decode feature now works with full graph mode. #5118

  • Context Parallel(PCP&DCP) feature is more stable now. And it works for most case. Please try it out.

  • MTP and eagle spec decode feature now works in most cases. And it's suggested to use them in most cases.

  • EPLB feature more stable now. Many bugs have been fixed. Mix placement works now #6086

  • Support kv nz feature for DeepSeek decode node in disagg-prefill scenario #3072

Model Support#

  • LongCat-Flash is supported now.#3833

  • minimax_m2 is supported now. #5624

  • Support for cross-attention and whisper models #5592

性能#

  • Many custom ops and triton kernels are added in this release to speed up the performance of models. Such as RejectSampler, MoeInitRoutingCustom, DispatchFFNCombine and so on.

  • Improved the performance of Layerwise Connector #5303

其他#

  • Basic support Model Runner v2. Model Runner V2 is the next generation of vLLM. It will be used by default in the future release. #5210

  • Fixed a bug that the zmq send/receive may failed #5503

  • Supported to use full-graph with Qwen3-Next-MTP #5477

  • Fix weight transpose in RL scenarios #5567

  • Adapted SP to eagle3 #5562

  • Context Parallel(PCP&DCP) support mlapo #5672

  • GLM4.6 support mtp with fullgraph #5460

  • Flashcomm2 now works with oshard generalized feature #4723

  • Support setting tp=1 for the Eagle draft model #5804

  • Flashcomm1 feature now works with qwen3-vl #5848

  • Support fine-grained shared expert overlap #5962

依赖关系#

  • CANN is upgraded to 8.5.0

  • torch-npu is upgraded to 2.8.0.post1. Please note that the post version will not be installed by default. Please install it by hand from pypi mirror.

  • triton-ascend is upgraded to 3.2.0

弃用及重大变更#

  • CPUOffloadingConnector is deprecated. We'll remove it in the next release. It'll be replaced by CPUOffload feature from vLLM in the future.

  • eplb config options is moved to eplb_config in additional config. The old ones will be removed in the next release.

  • ProfileExecuteDuration feature is deprecated. It's replaced by ObservabilityConfig from vLLM.

  • The value of VLLM_ASCEND_ENABLE_MLAPO env will be set to True by default in the next release. It'll be enabled in decode node by default. Please note that this feature will cost more memory. If you are memory sensitive, please set it to False.

v0.13.0rc1 - 2025.12.27#

这是 vLLM Ascend v0.13.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。

亮点#

  • 提升了 DeepSeek V3.2 的性能,请参考 教程

  • 现已支持带分块预填充的 Qwen3-Next MTP #4770,请参考 教程

  • [实验性功能] 已支持预填充上下文并行(Prefill Context Parallel)和解码上下文并行(Decode Context Parallel),请注意这目前是一个实验性功能,欢迎任何反馈。详情请参考 上下文并行功能指南

功能#

  • 支持 openPangu Ultra MoE #4615

  • 现已支持新的量化方法 W8A16。#4541

  • 现已支持跨机解耦预填充(Disaggregated Prefill)。#5008

  • 为 KV 缓存卸载(Offloading)添加 UCMConnector。#4411

  • 在 eagle 中支持 async_scheduler 和 disable_padded_drafter_batch。#4893

  • 在全图模式(full graph mode)下支持 pcp + mtp。#4572

  • 增强 NPUModelRunner 中 MoE 模型的 all-reduce 跳过逻辑。#5329

性能#

一些常规性能改进:

  • 添加 l2norm triton 算子 #4595

  • 为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077

  • 在模型执行时添加异步指数计算。#4501

  • 移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390

  • 为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。

其它#

  • VL 模型上的 OOM 错误现已修复。我们正在持续观察,如果您再次遇到 OOM 问题,请提交 issue。#5136

  • 修复了 Qwen3-Next-MTP 在批量推理时的精度问题。#4932

  • 修复了 npu-cpu offloading 接口变更导致的错误。#5290

  • 修复了 aclgraph 模式下 MHA 模型的运行时错误。#5397

  • 修复了 ep=1 场景下不合适的 moe_comm_type。#5388

弃用及重大变更#

  • 移除了 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为 VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常总是同时启用的。#5272

  • 现已废弃 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP#5270

  • 由于我们注意到在某些 float 权重场景下性能不佳,现已针对该场景禁用了 VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878

  • 现已废弃 additional_config 中的 chunked_prefill_for_mla#5296

  • additional_config 中的 dump_config 已重命名为 dump_config_path,且类型从 dict 更改为 string#5296

依赖关系#

  • vLLM 版本已升级到 0.13.0,并停止对 0.12.0 的支持。#5146

  • Transformer 版本已升级至 >= 4.57.3 #5250

已知问题#

  • Qwen3-Next 不支持长序列场景,运行 Qwen3-Next 时应根据文档限制 gpu-memory-utilization。我们将在下一个版本中改进这一点。

  • 修复了 Qwen3-Next 在输入/输出约为 3.5k/1.5k 时的功能中断问题,但这导致了性能下降。我们将在下一个版本中修复它。#5357

  • DeepSeek-V3.2 中存在超短序列的 curl 精度问题。我们将在下一个版本中修复它。#5370

v0.11.0 - 2025.12.16#

我们很高兴宣布 vLLM Ascend v0.11.0 正式发布。请按照 官方文档 开始使用。如果有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。

亮点#

  • 提升了 DeepSeek 3/3.1 的性能。#3995

  • 修复了 Qwen3-VL 的精度错误。#4811

  • 提升了采样的性能。#4153

  • Eagle3 现已回归。#4721

其它#

  • 提升了 kimi-k2 的性能。#4555

  • 修复了 deepseek3.2-exp 的量化错误。#4797

  • 修复了高并发下的 qwen3-vl-moe 错误。#4658

  • 修复了预填充解码(Prefill Decode)解耦场景下的精度错误。#4437

  • 修复了 EPLB 的一些错误。#4576 #4777

  • 修复了 openEuler 镜像的版本不兼容问题。#4745

弃用公告#

  • LLMdatadist connector 已被弃用,将于 v0.12.0rc1 中移除

  • Torchair graph 已被弃用,将于 v0.12.0rc1 中移除

  • Ascend scheduler 已被弃用,将于 v0.12.0rc1 中移除

升级说明#

  • torch-npu 已升级到 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • CANN 已升级至 8.3.rc2。

已知问题#

  • 在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。且如果输入太长,会导致 OOM。我们将在下一个版本中改进这一点。

  • 在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。

  • Qwen2-audio 默认无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适的值,例如 0.8。

  • 如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。

v0.12.0rc1 - 2025.12.13#

这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。

亮点#

  • DeepSeek 3.2 现在运行稳定且性能得到提升。在此版本中,您无需安装任何其他额外包。请参考 官方教程 开始使用。

  • 异步调度器(Async scheduler)现在更加稳定并可以启用了。请设置 --async-scheduling 来启用它。

  • 现在支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。

核心#

  • [实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认不启用,但我们建议在大多数情况下通过 --compilation-config '{""cudagraph_mode"":""FULL_DECODE_ONLY""}' 启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中继续改进并默认启用它。

  • 添加了大量的 triton 算子。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认不会安装和启用,但我们建议在大多数场景下启用。您可以从 软件包地址 手动下载安装。如果您是在 X86 平台上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。

  • 添加了大量昇腾(Ascend)算子以提升性能。这意味着从该版本开始,vLLM Ascend 仅能在使用自定义算子构建的情况下工作。因此,我们移除了环境变量 COMPILE_CUSTOM_KERNELS,您现在无法将其设置为 0。

  • 投机解码方法 MTP 现在更加稳定。它可以在大多数情况下启用,且解码 token 数量可以设置为 1、2、3。

  • 现已支持投机解码方法 suffix。感谢招商银行的贡献。

  • llm-compressor 量化工具的 W8A8 现在可以正常使用了。您现在可以直接部署使用该工具生成的 W8A8 量化模型。

  • W4A4 量化现在可以正常工作了。

  • 支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334

  • 现已支持 Pooling 模型,如 bge、reranker 等

  • 官方文档已改进。我们重构了教程以使其更加清晰。用户指南和开发指南现在也更加完善。我们将持续改进。

其它#

  • [实验性功能] 现已支持 Mooncake 分层连接器(layerwise connector)。

  • [实验性功能] 添加了 KV cache 池 功能

  • [实验性功能] 引入了新的图模式 xlite。它在某些模型上表现良好。请参考 官方教程 开始使用。

  • 移除了 LLMdatadist kv 连接器。请使用 mooncake 连接器代替。

  • 移除了 Ascend scheduler。--additional-config {""ascend_scheudler"": {""enabled"": true}} 不再起作用。

  • 移除了 Torchair 图模式。--additional-config {""torchair_graph_config"": {""enabled"": true}} 不再起作用。请使用 aclgraph 代替。

  • 移除了 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION 环境变量。该功能已足够稳定,我们现在默认启用它。

  • 投机解码方法 Ngram 现已回归。

  • 添加了 msprobe 工具以帮助用户检查模型精度。请参考 官方文档 开始使用。

  • 添加了 msserviceprofiler 工具以帮助用户进行模型性能调优(profiling)。请参考 官方文档 开始使用。

升级说明#

  • 移除了 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已被移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。

  • CANN 已升级至 8.3.RC2,Pytorch 和 torch-npu 已升级至 2.8.0。请不要忘记安装它们。

  • 停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。

已知问题#

  • DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下一个版本中修复它。#4990

  • Hunyuan OCR 无法工作。我们将在下一个版本中修复它。#4989 #4992

  • DeepSeek 3.2 无法配合 chat template 使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中支持。

  • 在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下一个版本中修复它。#4996

  • 我们注意到 bf16/fp16 模型的性能表现不佳,这主要是由于默认启用了 VLLM_ASCEND_ENABLE_NZ。请设置 VLLM_ASCEND_ENABLE_NZ=0 来禁用它。我们将在下一个版本中添加自动检测机制。

  • 投机解码方法 suffix 无法工作。我们将在下一个版本中修复它。您可以采纳(pick)此 commit 来修复该问题:#5010

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。

亮点#

  • torch-npu 已升级到 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。

  • 禁用了 NZ 权重加载器(weight loader)以加速 dense 模型。请注意,这是一个临时解决方案。如果您发现性能变差,请告知我们。我们将持续改进。#4495

  • 官方 Docker 镜像中现已安装 mooncake。您现在可以直接在容器中使用它。#4506

其它#

  • 修复了 moe 模型的 OOM 问题。#4367

  • 修复了多模态模型在 DP>1 运行时的卡死(hang)问题。#4393

  • 修复了 EPLB 的一些错误。#4416

  • 修复了 mtp>1 + lm_head_tp>1 场景下的错误。#4360

  • 修复了 vLLM serve 长时间运行时可能出现的精度问题。#4117

  • 修复了 qwen2.5 vl 在高并发运行下的功能错误。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。

亮点#

  • CANN 已升级至 8.3.RC2。#4332

  • Ngram 投机解码方法现已回归。#4092

  • 通过更新默认 capture size 提升了 aclgraph 的性能。#4205

核心#

  • 加快 vLLM 启动速度。#4099

  • 支持 Kimi k2 量化版。 #4190

  • 修复了 qwen3-next 的一个 bug,现在运行更稳定。 #4025

其它#

  • 修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。 #4106 #4282

  • 修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。 #3711

  • 修复了 EPLB 功能的一些 bug。 #4150 #4334

  • 修复了多模态(vl)模型无法在 x86 机器上运行的问题。 #4285

  • 预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。 #4242

  • 增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。 #4315

  • 增加了一项检查,以确保 FLASHCOMM 功能不与多模态(vl)模型冲突。该功能将在 2025 年第四季度支持。 #4222

  • 容器中已安装音频所需的库。 #4324

已知问题#

  • Ray + 专家并行(EP)暂时无法工作。如果您在 Ray 上运行 vLLM Ascend,请禁用专家并行。 #4123

  • 目前尚不支持 response_format 参数。我们将很快提供支持。 #4175

  • CPU 绑定功能在多实例情况下(如单节点多个数据并行实例)无法使用。我们将在下一个版本中修复此问题。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。

亮点#

  • CANN 已升级至 8.3.RC1。Torch-npu 已升级至 2.7.1。 #3945 #3896

  • 前缀缓存(PrefixCache)和分块预填充(Chunked Prefill)默认已启用。 #3967

  • 现已支持 W4A4 量化。 #3427。官方教程请见 此处

核心#

  • 提升了 Qwen3 和 DeepSeek V3 系列模型的性能。

  • 现已支持 Mooncake 分层连接器 #2602。教程请见 此处

  • 现已支持多 token 预测(MTP > 1)。 #2708

  • [实验性] 现已支持图模式 FULL_DECODE_ONLYFULL 模式将在未来几周内推出。 #2128

  • 现已支持 Pooling 模型(如 bge-m3)。 #3171

其它#

  • 重构了 MoE 模块,使其更清晰易懂,并在量化和非量化场景下均提升了性能。

  • 重构了模型注册模块以方便维护。我们将在 2025 年第四季度移除该模块。 #3004

  • Torchair 已被弃用。一旦 ACL Graph 的性能达到预期,我们将移除它,截止日期为 2026 年第一季度。

  • LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。

  • 重构了 linear 模块,以支持 flashcomm 论文中的 flashcomm1 和 flashcomm2 特性。 #3004 #3334

已知问题#

  • 在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。

  • Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。

  • 在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器(scheduler)的一个 bug,我们正在修复中。

  • Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为一个合适的值,例如 0.8。

  • 当启用专家并行运行 Qwen3-Next 时,请将 HCCL_BUFFSIZE 环境变量设置为合适的值,例如 1024。

  • 在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 现已支持 DeepSeek V3.2。#3270

  • 现已支持 Qwen3-vl。#3103

核心#

  • DeepSeek 现在可以与 aclgraph 协同工作。#2707

  • MTP 现在可以与 aclgraph 协同工作。#2932

  • 现已支持 EPLB。#2956

  • 现已支持 Mooncake 存储 KV Cache 连接器。#2913

  • 现已支持 CPU 卸载(offload)连接器。#1659

其他#

  • Qwen3-next 现在已达到稳定状态。#3007

  • 修复了 v0.10.2 中由 Qwen3-next 引入的大量 bug。#2964 #2781 #3070 #3113

  • LoRA 功能现已恢复。#3044

  • Eagle3 投机解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 新增对 Qwen3-Next 的支持。请注意,此版本暂不支持专家并行(EP)和 MTP 功能,我们将很快添加相关支持。请参考 官方指南 开始使用。#2917

  • 为 aclgraph 增加了量化支持。#2841

核心#

  • Aclgraph 现在支持 Ray 后端。#2589

  • MTP 现在支持多 token(token > 1)场景。#2708

  • Qwen2.5 VL 现在支持量化。#2778

  • 提升了启用异步调度器(async scheduler)时的性能。#2783

  • 修复了使用默认调度器时非 MLA 模型的性能退化问题。#2894

其他#

  • 提升了 W8A8 量化的性能。#2275

  • 提升了 MoE 模型的性能。#2689 #2842

  • 修复了应用投机解码和 aclgraph 时资源限制导致的错误。#2472

  • 修复了 Docker 镜像中的 git 配置错误。#2746

  • 修复了预填充阶段滑动窗口注意力的 bug。#2758

  • 添加了 Qwen3 预填充-解码解耦(PD Disaggregation)的官方文档。#2751

  • 环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 现已重新生效。#2740

  • 为 DeepSeek 的 oproj 增加了新的优化。设置 oproj_tensor_parallel_size 即可启用此特性。#2167

  • 修复了设置 graph_batch_sizes 时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760

  • 避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744

  • 通过 flashcomm_v1 提升了 Qwen3 密集(dense)模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1VLLM_ASCEND_ENABLE_FLASHCOMM=1 即可启用。#2779

  • 通过预取(prefetch)特性提升了 Qwen3 密集(dense)模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 即可启用。#2816

  • 通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571

  • 修复了 RLHF 场景下的权重加载错误。#2756

  • 增加了 warm_up_atb 步骤以加快推理速度。#2823

  • 修复了 MoE 模型在 aclgraph 模式下的流(stream)错误。#2827

已知问题#

  • 当在预填充(P)和解码(D)阶段使用不同的 TP 大小运行 PD 解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此 commit 来修复该问题。

  • Qwen3-Next 的显存(HBM)占用高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将 max_model_lengpu_memory_utilization 设置为合适的值,以避免显存溢出(OOM)。

  • 我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941

  • 在使用 Ascend 调度器时,请勿同时启用分块预填充(chunked prefill)和前缀缓存(prefix cache),否则性能和精度将不理想或不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • 通过招商银行贡献的自定义算子,LoRA 的性能得到了大幅提升。#2325

  • 支持 Mooncake TransferEngine 用于 KV Cache 注册,并实现了 pull_blocks 样式的解耦预填充。#1568

  • 现在支持将自定义算子捕获到 aclgraph 中。#2113

核心#

  • 增加了 MLP 张量并行(TP)以提升性能,但请注意这会增加内存占用。#2120

  • openEuler 已升级至 24.03 版本。#2631

  • 增加了自定义 lmhead 张量并行,以降低内存消耗并提升 TPOT 性能。#2309

  • Qwen3 MoE 和 Qwen2.5 现在支持 torchair 图模式。#2403

  • 在 AscendScheduler 中支持滑动窗口注意力(Sliding Window Attention),从而修复了 Gemma3 的精度问题。#2528

其他#

  • Bug 修复:

    • 更新了图捕获大小(graph capture size)的计算方式,在一定程度上缓解了某些场景下 NPU 流(stream)不足的问题。#2511

    • 修复了相关 bug 并重构了缓存掩码(cached mask)生成逻辑。#2442

    • 修复了 NZ 格式在量化场景下无法工作的问题。#2549

    • 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列模型精度问题。#2457

    • 修复了 RoPE 维度与 Head 维度不一致的模型(如 GLM4.5)的精度问题。#2601

  • 通过大量 PR 提升了性能:

    • 移除了 torch.cat 并替换为 List[0]。#2153

    • 将 GMM 的格式转换为 NZ。#2474

    • 优化了并行策略以减少通信开销。#2198

    • 优化了贪婪搜索(greedy)场景下的拒绝采样器(reject sampler)。#2137

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 MLA 相关代码。#2465

    • 重构了 torchair 的 fused_moe 部分。#2438

    • 重构了与 allgather/mc2 相关的 fused_experts 部分。#2369

    • 重构了 torchair 的模型运行器(model runner)。#2208

    • 重构了 CI(持续集成)流程。#2276

  • 参数变更:

    • additional_config 中增加了 lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309

    • 移除了若干不再使用的环境变量:HCCN_PATHPROMPT_DEVICE_IDDECODE_DEVICE_IDLLMDATADIST_COMM_PORT 以及 LLMDATADIST_SYNC_CACHE_WAIT_TIME#2448

    • 环境变量 VLLM_LLMDD_RPC_PORT 现已更名为 VLLM_ASCEND_LLMDD_RPC_PORT#2450

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120

    • 从环境变量中移除了 MOE_ALL2ALL_BUFFERVLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ#2612

    • additional_config 中增加了 enable_prefetch,用于控制是否启用权重预取(prefetch)。#2465

    • additional_config.torchair_graph_config 中增加了 mode 参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461

    • additional_config 中的 enable_shared_expert_dp 现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457

已知问题#

  • 滑动窗口注意力(Sliding window attention)目前不支持分块预填充(chunked prefill),因此只能配合 AscendScheduler 运行。#2729

  • 在启用多流(MultiStream)时创建 mc2_mask 存在一个 bug,将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南

请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。

亮点#

  • 已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程大规模专家并行 文档。

  • Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。

  • 支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。

  • 投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。

  • 现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南

  • V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程

  • 增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。

注意#

以下说明特别供从上一个正式版本(v0.7.3)升级时参考:

  • 从此版本起不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。

  • 此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。

  • Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。

核心#

  • 为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。

  • 结构化输出(Structured output)功能现在可以在 V1 引擎上运行。

  • 增加了一批自定义算子以提升性能。

变更#

  • Qwen3-moe 模型现已支持 EPLB。#2000

  • 修复了 MTP 在预填充-解码解耦场景下表现不佳的问题。#2610 #2554 #2531

  • 修复了若干 bug 以确保预填充-解码解耦能够正常工作。#2538 #2509 #2502

  • 修复了 torchair 模式下使用 shutil.rmtree 导致的“文件未找到”错误。#2506

已知问题#

  • 运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。

  • 此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。

  • 如果在 eager 模式下使用 w4a8 量化,请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免显存溢出(OOM)。

  • 使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654

  • 我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。

核心#

  • MTP 现在支持 V1 调度器。#2371

  • 增加了 LMhead 张量并行(TP)通信组。#1956

  • 修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478

  • 修复了由过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask 索引越界(IndexError)错误。#2314

  • 移除了 chunked_prefill_for_mla 参数。#2177

  • 修复了 bug 并重构了缓存掩码生成逻辑。#2326

  • 修复了关于 Ascend 调度器的配置检查逻辑。#2327

  • 在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368

  • 修复了 Ray 分布式后端失效的问题。#2306

  • 修复了 Ascend 调度器中错误的请求块长度。#2394

  • 修复了 RoPE 中的头文件包含问题。#2398

  • 修复了 MTP 的配置 bug。#2412

  • 修正了错误信息并适配了 attn_metedata 的重构。#2402

  • 修复了因配置不匹配及 .kv_cache_bytes 文件缺失导致的 torchair 运行错误。#2312

  • with_prefill 阶段的 allreduce 从 CPU 迁移至 NPU。#2230

文档#

  • 增加了 DeepSeek 大规模专家并行(EP)的文档。#2339

已知问题#

  • 修复了 A2 (910B1) 上开启 "full_cuda_graph": Truetest_aclgraph.py 失败的问题。#2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。

亮点#

  • 解耦预填充(Disaggregate prefill)现在已支持 V1 引擎。您可以按照此 教程 在 DeepSeek 模型上进行尝试。#950

  • Dense 和 MoE 模型现在已支持 W4A8 量化方法。#2060 #2172

核心#

  • Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724#1562。CANN 已升级至 8.2.RC1#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。

  • vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582

  • vLLM Ascend 已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162

  • V1 引擎现在已支持流水线并行(Pipeline Parallelism)。#1800

  • 前缀缓存(Prefix cache)功能现在可以与 Ascend 调度器协同工作。#1446

  • Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508

  • MTP 现在支持 torchair 图模式。#2145

其他#

  • Bug 修复:

    • 修复了 Qwen2-audio 等多模态模型在 Aclgraph 模式下的功能问题。#1803

    • 修复了外部启动场景下进程组创建错误的问题。#1681

    • 修复了引导式解码(guided decoding)的功能问题。#2022

    • 修复了数据并行(DP)场景下常见 MoE 模型的精度问题。#1856

  • 通过大量 PR 提升了性能:

    • 将 sin/cos 进行缓存,而非在每一层都重新计算。#1890

    • 改进了共享专家(shared expert)的多流并行性。#1891

    • 实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1 可启用此特性。#1926

    • 通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195

    • 在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806

    • 使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555

    • 提升了 LoRA 的性能。#1884

  • 通过一批重构 PR 增强了代码架构:

    • 重构了 Torchair 模型运行器(model runner)。#2205

    • 重构了 forward_context 和 model_runner_v1。#1979

    • 重构了 AscendMetaData 的注释。#1967

    • 重构了 torchair 工具类(utils)。#1892

    • 重构了 torchair 工作进程(worker)。#1885

    • 通过注册激活自定义算子代替重写 forward_oot。#1841

  • 参数变更:

    • additional_config 中的 expert_tensor_parallel_size 现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681

    • 增加了环境变量 VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用 MatmulAllReduce 融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。

    • 增加了环境变量 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。

  • 在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。

  • 序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209

  • 现在已增加中文在线文档。#1870

已知问题#

  • 目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229

  • 在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232

  • 在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246

  • MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254

  • 当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录(metrics logger)。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。

亮点#

  • MoE 和 Dense 模型现在支持 w4a8 量化:#1320 #1910 #1275 #1480"

  • #1943 中增加了对动态 EPLB 的支持。

  • V1 引擎现已支持解耦预填充(Disaggregated Prefilling)并进行了改进。持续对解耦预填充特性进行开发和稳定化处理,包括单机环境下的性能提升和 bug 修复:#1953 #1612 #1361 #1746 #1552 #1801 #2083 #1989

模型改进#

图模式改进#

  • #1269 中修复了 DeepSeek 配合 mc2 使用的问题。

  • #1332 中修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。

  • #1570 中修复了 torchair_graph_batch_sizes 的 bug。

  • #1404 中为 torchair 图模式启用了 tp <= 4 的限制。

  • 修复了 RoPE 精度 bug。#1887

  • 在 FusedMoE 中支持共享专家的多流并行。#997

  • 在 torchair 图模式下的解码过程中启用 kvcache_nz#1098

  • 修复了使用 torchair 时分块预填充的情况,解决了 #1378 中的 UnboundLocalError: local variable 'decode_hs_or_q_c' 问题。

  • #1561 中提升了 w8a8 动态量化下共享专家的多流性能。

  • #1882 中修复了设置多流时的 MoE 错误。

  • 在 EP 场景下将图 batch size 向上取整至 tp 大小的倍数。#1610

  • #1727 中修复了启用 DP 时的 torchair bug。

  • #1675 中为 torchair_graph_config 增加了额外的检查。

  • #1693 中修复了 torchair + 分块预填充场景下的 RoPE bug。

  • #1748 中修复了 chunked_prefill 为 true 时的 torchair_graph bug。

  • #2090 中改进了预填充优化以支持 torchair 图模式。

  • 修复了 DP 场景下的 rank 设置问题。#1247

  • #1397 中重置了所有未使用的位置以防止越界,从而解决了 GatherV3 的 bug。

  • #1393 中移除了 ModelRunner 中重复的多模态代码。

  • #1297 中修复了 block table 的形状以解决精度问题。

  • #1503 中针对受限场景实现了初步的全图模式(full graph)。

  • #1677 中为了性能在全图模式中恢复了 paged attention 内核。

  • #1829 中修复了极端 --gpu-memory-utilization 设置下的 DeepSeek OOM 问题。

  • #2154 中设定了启用 TorchAir 时自动关闭 aclgraph。

算子改进#

  • 增加了自定义的 AscendC 内核 vocabparallelembedding#796

  • #1267 中修复了 RoPE sin/cos 缓存 bug。

  • #1264 中重构了 AscendFusedMoE (#1229)。

  • 在采样器中使用了融合算子 npu_top_k_top_p#1920

核心:#

  • #2036 中将 CANN 升级至 8.2.rc1。

  • #2135 中将 torch-npu 升级至 2.5.1.post1。

  • #2136 中将 Python 升级至 3.11。

  • #1749 中禁用了 mindie_turbo 中的量化。

  • #1323 中修复了 V0 引擎的投机解码问题。

  • #1271 中设定了仅在使用 V0 投机解码时才直接启用 ACL_OP_INIT_MODE=1

  • #1422 中重构了 forward_contextmodel_runner_v1

  • #1423 中修复了采样参数问题。

  • #1409 中增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ。

  • 修复了 ascend_forward_context 中的 bug:#1449 #1554 #1598

  • #1492 中通过处理 PrefillCacheHit 状态修复了前缀缓存精度 bug。

  • #1651 中修复了权重加载错误并增加了新的端到端测试用例。

  • #1614 中优化了 DeepSeek 中与 RoPE 相关的索引选择次数。

  • #1642 中增加了 mc2 掩码。

  • 修复了静态 EPLB 的 log2phy 条件并改进了单元测试:#1667 #1896 #2003

  • #1703 中为预填充增加了分块 mc2。

  • #1711 中修复了 mc2 算子的 GroupCoordinator bug。

  • #1721 中修复了无法识别实际量化类型的问题。

  • #1755 中修复了 DeepSeek 在 tp_size == 1 时的 bug。

  • #1691 中增加了预填充节点对无延迟块(delay-free blocks)的支持。

  • #1547 中针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO。

  • #1822 中适配了 dispatchV2 接口。

  • #1807 中修复了解耦预填充在长输出时的悬挂(hang)问题。

  • #1859 中修复了 V0 引擎下的 flashcomm_v1 问题。

  • #1862 中修复了某些情况下 ep_group 不等于 word_size 的问题。

  • #1808 中修复了 wheel 包 glibc 版本不兼容的问题。

  • #1831 中修复了 mc2 进程组以解决 self.cpu_group 为 None 的问题。

  • #1904 中将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查。

  • #1902 中为 MoE 应用了 npu_moe_gating_top_k_softmax 以提升性能。

  • #1919 中修复了 V0 引擎下 path_decorator 的 bug。

  • #1644 中避免了在解耦预填充(disaggregated-prefill)场景下执行 CPU all_reduce。

  • #1916 中为解码阶段的 MoE 增加了 super kernel。

  • [预填充性能] 并行策略优化(显存换速度的权衡),见 #1802

  • #2016 中移除了 shared_experts.down_proj 中不必要的 reduce_results 访问。

  • #2002 中通过向量化优化了 greedy reject 采样器。

  • #1936 中实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode)。

  • #2075 中修复了 DeepSeek 模型在启用 tp > 1 和 multistream_moe 时,共享专家与路由专家之间的形状冲突问题。

  • 增加了 CPU 绑定支持。#2031

  • #2129 中增加了 with_prefill CPU allreduce 以处理 D 节点的重计算。

  • #2038 中增加了 D2H 和 initRoutingQuantV2 以提升预填充性能。

文档#

  • 提供了执行时长分析(duration profiling)的端到端指南。#1113

  • 为 CANN 软件包下载链接添加了 Referer 请求头。#1192

  • 增加了重新安装说明文档。#1370

  • 更新了解耦预填充(Disaggregate prefill)的 README。#1379

  • 针对 KV Cache 注册方式实现了解耦预填充。#1296

  • #1965 中修复了 examples/disaggregate_prefill_v1/README.md 中的错误和不规范之处。

已知问题#

  • 在开启 full_cuda_graph 启用时,某些特定硬件类型尚不支持全图模式。#2182

  • Qwen3 MoE 在启用 EP 时,由于 bincount 错误导致带 TP 的 aclgraph 模式失败。#2226

  • 正如 v0.9.1rc1 发布说明中所提到的,此版本将不包含对 Atlas 300I 系列的支持。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。

亮点#

  • Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359

  • Atlas 300I 系列的性能已经提升。 #1591

  • aclgraph 模式现在可以与 Moe 模型一起使用。目前,仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347

  • GatherV3 错误已在 aclgraph 模式下修复。#1416

  • W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560

  • 修复了使用并行参数部署模型时的准确性问题。#1678

  • 预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

  • 官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。

  • 修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331

  • 新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为 0#1335

  • 新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732

  • 已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478

  • DeepSeek 的性能已得到提升:#1194 #1395 #1380

  • Ascend 调度器现在支持前缀缓存。#1446

  • DeepSeek 现在支持前缀缓存了。#1498

  • 在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483

已知问题#

  • 流水线并行(Pipeline parallel)无法与 Ray 和图模式共同工作,详见:issue #1751, #1754

新贡献者#

  • @xleoken 在 #1357 中做出了首次贡献

  • @lyj-jjj 在 #1335 中做出了首次贡献

  • @sharonyunyun 在 #1194 中做出了首次贡献

  • @Pr0Wh1teGivee 在 #1308 中做出了首次贡献

  • @leo-pony 在 #1374 中做出了首次贡献

  • @zeshengzong 在 #1452 中做出了首次贡献

  • @GDzhu01 在 #1477 中做出了首次贡献

  • @Agonixiaoxiao 在 #1531 中做出了首次贡献

  • @zhanghw0354 在 #1476 中做出了首次贡献

  • @farawayboat 在 #1591 中做出了首次贡献

  • @ZhengWG 在 #1196 中做出了首次贡献增加了 DeepSeek 大规模专家并行(EP)的文档。#2339

  • @wm901115nwpu 在 #1654 中做出了首次贡献

完整更新日志: v0.9.1rc1...1.9.2rc1

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

实验性功能#

  • 本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333

  • 支持 EAGLE-3 进行推测式解码。#1032

经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235

  • 支持 Atlas 300I 系列的容器镜像。您可以从 quay.io 获取。

  • 修复了按 token 填充的机制,以使多卡图模式正常工作。#1300

  • 将 vLLM 升级到 0.9.1 #1165

其他改进#

  • 为 MLA 初步支持分块预填充(Chunked Prefill)。#1172

  • 新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101

  • 提升了 DeepSeek 在使用 TorchAir 图模式时的性能。#1098, #1131

  • 支持在 AscendScheduler 中使用推测式解码功能。#943

  • 提升了 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796

  • 修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884

  • DeepSeek 现在可以与 MC2(计算通信融合)正常配合工作。#1268

  • 修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186

  • 提升了启用 DBO 时 DeepSeek 的性能。#997, #1135

  • 重构 AscendFusedMoE #1229

  • 新增初始用户故事页面(包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224

  • 添加单元测试框架 #1201

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在处理此问题,并将在下一个版本中修复。#1038

  • 在未启用分块预填充的情况下,前缀缓存功能无法与 Ascend 调度器配合使用。此问题将在下一个版本中修复。#1350

完整更新日志#

v0.9.0rc2...v0.9.1rc1

新贡献者#

  • @farawayboat 在 #1333 中做出了首次贡献

  • @yzim 在 #1159 中做出了首次贡献

  • @chenwaner 在 1098 中做出了首次贡献

  • @wangyanhui-cmss 在 #1184 中做出了首次贡献

  • @songshanhu07 在 #1186 中做出了首次贡献

  • @yuancaoyaoHW 在 #1032 中做出了首次贡献

完整更新日志: v0.9.0rc2...v0.9.1rc1

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。

亮点#

  • 修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。

亮点#

  • DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789

  • Qwen 系列模型现在支持图模式,且在 V1 引擎中默认启用。请注意,在本次发布中,仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中提升其稳定性并使其更通用。如果您遇到任何问题,请随时在 GitHub 上提交 issue,并在初始化模型时通过设置 enforce_eager=True 临时回退到 eager 模式。

核心#

  • 提升了多步调度器(multi-step scheduler)的性能。感谢招商银行的贡献。#814

  • V1 引擎现在支持 LoRA、多 LoRA(Multi-LoRA)以及动态服务。感谢招商银行的贡献。#893

  • 前缀缓存(Prefix cache)和分块预填充(chunked prefill)功能现已可用。#782 #844

  • 推测解码(Spec decode)和 MTP 功能现在已支持 V1 引擎。#874 #890

  • 数据并行(DP)功能现在支持 DeepSeek 模型。#1012

  • 输入嵌入(Input embedding)特性现在已支持 V0 引擎。#916

  • 休眠模式(Sleep mode)功能现在已支持 V1 引擎。#1084

模型#

  • Qwen2.5 VL 现在支持 V1 引擎。#736

  • LLama4 模型现在已支持。#740

  • 新增了一种名为双批次重叠(dual-batch overlap, DBO)的 DeepSeek 模型支持。请设置 VLLM_ASCEND_ENABLE_DBO=1 来使用它。#941

其他#

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。

  • 多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包括以下更改:

亮点#

  • 现在已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已通过充分测试,欢迎试用。推荐使用 MindIE Turbo 以提升 Qwen3 的性能。#903 #915

  • 新增了性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能,包括操作系统配置、库优化、部署指南等。#878 文档链接

漏洞修复#

  • Qwen2.5-VL 现在已支持 RLHF 场景。#928

  • 用户现在可以直接通过在线权重启动模型,例如直接从 HuggingFace 或 ModelScope 加载。#858#918

  • 清理了无意义的日志信息 UserWorkspaceSize0#911

  • Failed to import vllm_ascend_C 的日志级别已由 error 更改为 warning#956

  • DeepSeek MLA 现已在 V1 引擎中支持分块预填充(Chunked Prefill)。请注意,0.7.3 中的 V1 引擎仍处于实验阶段,仅供测试使用。#849 #936

文档#

  • 基准测试文档已针对 Qwen2.5 和 Qwen2.5-VL 完成更新。#792

  • 添加了说明,明确只有 modelscope<1.23.0 版本能与 0.7.3 兼容。#954

v0.7.3 - 2025.05.08#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。

亮点#

  • 本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1v0.7.3rc1v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵模型支持矩阵

  • 将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。

  • 将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662

  • 将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708

核心#

  • 现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700

模型#

  • 提升了 Qwen2 VL 和 Qwen2.5 VL 的性能。#702

  • 优化了 apply_penaltiestopKtopP 算子的性能。#525

其他#

  • 修复了可能导致 CPU 内存泄漏的问题。#691#712

  • 新增了环境变量 SOC_VERSION。如果在启用自定义算子构建时遇到 SOC 检测错误,请将 SOC_VERSION 设置为合适的值。#606

  • 支持 openEuler 容器镜像,标签为 v0.7.3-openeuler#665

  • 前缀缓存功能现已在 V1 引擎上可用。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵

亮点#

  • 将 CANN 升级至 8.1.RC1,以支持在启用 V1 引擎时的分块预填充和自动前缀缓存(--enable_prefix_caching)。#747

  • 优化了 Qwen2 VL 和 Qwen 2.5 VL。#701

  • 提升了 DeepSeek V3 的 Eager 模式和图模式性能,您现在可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。 #598 #719

核心#

  • 将 vLLM 升级到 0.8.5.post1。#715

  • 修复了在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题。#682

  • 适配了由 modelslim 生成的新量化模型。#719

  • 初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694

  • 使用 /vllm-workspace 作为代码路径,并在容器镜像中包含 .git 目录,以修复在 /workspace 下启动 vLLM 时的问题。#726

  • 优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728

  • 修复了 setup.pyPYTHON_INCLUDE_PATH 的拼写错误。#762

其他#

  • 添加单元测试框架 #1201

  • 添加了每晚持续集成(Nightly CI)。#668

  • 添加了精度测试报告。#542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。

亮点#

  • 现已支持 Qwen3 和 Qwen3MOE。请参考官方文档运行快速示例。#709

  • 现已支持 Ascend W8A8 量化方法。详情请参考官方文档示例。欢迎提供任何反馈#580

  • DeepSeek V3/R1 现在支持数据并行(DP)、张量并行(TP)和多 token 预测(MTP)。请注意,目前仍处于实验阶段。如遇问题请告知我们。#429, #585, #626, #636, #671

核心#

  • V1 引擎现已支持 ACLGraph 特性。由于该特性依赖 CANN 8.1 版本,目前默认禁用。我们将在下一个版本中默认启用此特性。#426

  • 将 PyTorch 升级到 2.5.1。vLLM Ascend 不再依赖 torch-npu 的开发版本,用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#661

其他#

  • MiniCPM 模型现在已支持。#645

  • 支持 openEuler 容器镜像(标签为 v0.8.4-openeuler),并且在 openEuler 操作系统下默认启用自定义算子(Ops)构建。#689

  • 修复了导致 LoRA 无法运行的 ModuleNotFoundError 错误。#600

  • 新增了“使用 EvalScope 进行评估”的文档。#611

  • 新增 VLLM_VERSION 环境变量,使 vLLM 版本可配置,便于开发者在本地手动修改 vLLM 代码后设置正确的版本号。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策

亮点#

  • 本版本引入了对 vLLM V1 引擎的实验性支持。更多详情请访问官方指南。默认情况下,若 V1 无法运行,vLLM 会自动回退到 V0;若需强制使用 V1,请设置环境变量 VLLM_USE_V1=1

  • 现已支持 LoRA、多 LoRA(Multi-LoRA)及动态服务(Dynamic Serving)。性能将在下个版本优化。用法详见官方文档。感谢招商银行的贡献。#521

  • 支持休眠模式(Sleep Mode)。目前仅支持 V0 引擎,V1 引擎的支持即将推出。#513

核心#

  • 为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543

  • 支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南#432

  • 猜测性解码(Speculative Decoding)现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500

  • 结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555

其他#

  • 新增了通信器 pyhccl,用于直接调用 CANN HCCL 库而非通过 torch.distribute。更多用法将在下个版本加入。#503

  • 默认启用自定义算子构建。从源码编译 vllm-ascend 前请确保已安装 gcccmake 等包。如无需编译算子,可设置环境变量 COMPILE_CUSTOM_KERNELS=0#466

  • 自定义算子 rotary embedding 现已默认启用以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。

  • 容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html

  • 安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html

亮点#

  • 新增 Ascend 自定义算子框架,开发者现在可以使用 AscendC 编写自定义算子。已添加示例算子 rotary_embedding,更多教程即将推出。默认安装时不编译自定义算子,可设置 COMPILE_CUSTOM_KERNELS=1 启用。#371

  • 本版本提供了 V1 引擎的基础支持,完整支持将在 0.8.X 版本完成。若您有任何问题或对 V1 引擎的需求,请在此处告知我们。#376

  • 前缀缓存(Prefix Cache)功能现已可用。您可以通过设置 enable_prefix_caching=True 启用它。#282

核心#

  • 将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出 !!! 的问题。#406

模型#

  • 通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398

其他#

  • 修复了确保多步调度器(Multi-step Scheduler)功能正常运行的错误。#349

  • 修复了确保前缀缓存功能在正确精度下运行的错误。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。

  • 容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html

  • 安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html

亮点#

  • DeepSeek V3/R1 现已能够良好运行。请参阅多节点指南开始使用!#242

  • 支持猜测性解码功能。#252

  • 支持多步调度器功能。#300

核心#

  • 将 torch_npu 升级至 dev20250308.3 以提升 _exponential 的精度。

  • 初步支持池化模型(Pooling Models)。基于 BERT 的模型(如 bge-base-en-v1.5bge-reranker-v2-m3)现已支持。#229

模型#

  • 提升了 Qwen2-VL 的性能。#241

  • 支持 MiniCPM 模型。#164

其他#

  • 为 DeepSeek V3/R1 提供多 token 预测(MTP)支持。#236

  • 【文档】新增了多个模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情见官方文档

  • 在 vLLM v0.7.3 中锁定 modelscope<1.23.0 以解决相关 Issue。

已知问题#

  • 在某些情况下(尤其是输入/输出极长时),输出精度可能会有误。我们正在处理此问题,将在下个版本修复。

  • 优化并减少了模型输出乱码的情况。若仍遇到乱码,请尝试调整生成参数(如 temperature)。欢迎提供任何反馈#277

v0.7.1rc1 - 2025.02.19#

🎉 你好,世界!

我们很高兴宣布 vllm-ascend v0.7.1 第一个候选版本的发布。

vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。本版本让用户能够在 Ascend 硬件上使用 vLLM 的最新功能。

请参阅官方文档开启您的旅程。由于这是候选发布版,可能存在 Bug,欢迎在此处提供反馈。

亮点#

  • 在 vLLM 中提供对 Ascend NPU 的初步支持。#3

  • 支持 DeepSeek 模型。#88, #68

  • 同时支持 Qwen、Llama 系列及其他流行模型,详情请见支持模型矩阵

核心#

  • 新增了 Ascend 量化配置选项,具体实现即将推出。#7, #73

  • 添加了 silu_and_mul 和 rope 算子,并将混合算子集成到 attention 层中。#18

其他#

  • 【CI】启用 Ascend CI 以持续监控并提升 vLLM 在 Ascend 上的运行质量。#3

  • 【Docker】新增 vllm-ascend 容器镜像。#64

  • 【文档】上线了在线文档#55

已知问题#

  • 本版本依赖于一个尚未正式发布的 torch_npu 版本,官方容器镜像中已内置。若您在非容器环境下运行,请手动安装

  • 运行时可能会出现 No platform detected...Failed to import from vllm._C... 的日志提示,这并不影响功能与性能,可以忽略。此问题已在相关 PR 中修复,并已包含在 v0.7.3 中。

  • 运行时可能会将 NPU block 错误地显示为 # CPU blocks,这不影响功能与性能,可以忽略。该显示问题已修复,并已包含在 v0.7.3 中。