版本说明#
v0.13.0 - 2026.02.06#
This is the final release of v0.13.0 for vLLM Ascend. Please follow the official doc to get started.
亮点#
Model Support
DeepSeek-R1 & DeepSeek-V3.2: [Experimental]Performance optimizations, and async scheduling enhancements. #3631 #3900 #3908 #4191 #4805
Qwen3-Next: [Experimental]Full support for Qwen3-Next series including 80B-A3B-Instruct with full graph mode, MTP, quantization (W8A8), NZ optimization, and chunked prefill. Fixed multiple accuracy and stability issues. #3450 #3572 #3428 #3918 #4058 #4245 #4070 #4477 #4770
InternVL: Added support for InternVL models with comprehensive e2e tests and accuracy evaluation. #3796 #3964
LongCat-Flash: [Experimental]Added support for LongCat-Flash model. #3833
minimax_m2: [Experimental]Added support for minimax_m2 model. #5624
Whisper & Cross-Attention: [Experimental]Added support for cross-attention and Whisper models. #5592
Pooling Models: [Experimental]Added support for pooling models with PCP adaptation and fixed multiple pooling-related bugs. #3122 #4143 #6056 #6057 #6146
PanguUltraMoE: [Experimental]Added support for PanguUltraMoE model. #4615
Core Features
Context Parallel (PCP/DCP): [Experimental] Added comprehensive support for Prefill Context Parallel (PCP) and Decode Context Parallel (DCP) with ACLGraph, MTP, chunked prefill, MLAPO, and Mooncake connector integration. This is an experimental feature - feedback welcome. #3260 #3731 #3801 #3980 #4066 #4098 #4183 #5672
Full Graph Mode (ACLGraph): [Experimental]Enhanced full graph mode with GQA support, memory optimizations, unified logic between ACLGraph and Torchair, and improved stability. #3560 #3970 #3812 #3879 #3888 #3894 #5118
Multi-Token Prediction (MTP): Significantly improved MTP support with chunked prefill for DeepSeek, quantization support, full graph mode, PCP/DCP integration, and async scheduling. MTP now works in most cases and is recommended for use. #2711 #2713 #3620 #3845 #3910 #3915 #4102 #4111 #4770 #5477
Eagle Speculative Decoding: Eagle spec decode now works with full graph mode and is more stable. #5118 #4893 #5804
PD Disaggregation: Set ADXL engine as default backend for disaggregated prefill with improved performance and stability. Added support for KV NZ feature for DeepSeek decode node. #3761 #3950 #5008 #3072
KV Pool & Mooncake: Enhanced KV pool with Mooncake connector support for PCP/DCP, multiple input suffixes, and improved performance of Layerwise Connector. #3690 #3752 #3849 #4183 #5303
EPLB (Elastic Prefill Load Balancing): [Experimental]EPLB is now more stable with many bug fixes. Mix placement now works. #6086
Full Decode Only Mode: Added support for Qwen3-Next and DeepSeekv32 in full_decode_only mode with bug fixes. #3949 #3986 #3763
Model Runner V2: [Experimental]Added basic support for Model Runner V2, the next generation of vLLM. It will be used by default in future releases. #5210
功能#
W8A16 Quantization: [Experimental]Added new W8A16 quantization method support. #4541
UCM Connector: [Experimental]Added UCMConnector for KV Cache Offloading. #4411
Batch Invariant: [Experimental]Implemented basic framework for batch invariant feature. #5517
Sampling: Enhanced sampling with async_scheduler and disable_padded_drafter_batch support in Eagle. #4893
Hardware and Operator Support#
Custom Operators: Added multiple custom operators including:
Operator Fusion: Added AddRmsnormQuant fusion pattern with SP support and inductor fusion for quantization. #5077 #4168
MLA/SFA: Refactored SFA into MLA architecture for better maintainability. #3769
FIA Operator: Adapted to npu_fused_infer_attention_score with flash decoding function. To optimize performance in small batch size scenarios, this attention operator is now available. Please refer to item 22 in FAQs to enable it. #4025
CANN 8.5 Support: Removed CP redundant variables after FIA operator enables for CANN 8.5. #6039
性能#
Many custom ops and triton kernels were added in this release to speed up model performance:
DeepSeek Performance: [Experimental]Improved performance for DeepSeek V3.2 by eliminating HD synchronization in async scheduling and optimizing memory usage for MTP. #4805 #2713
Qwen3-Next Performance: [Experimental]Improved performance with Triton ops and optimizations. #5664 #5984 #5765
FlashComm: Enhanced FlashComm v2 optimization with o_shared linear and communication domain fixes. #3232 #4188 #4458 #5848
MoE Optimization: Optimized all2allv for MoE models and enhanced all-reduce skipping logic. #3738 #5329
Attention Optimization: Moved attention update stream out of loop, converted BSND to TND format for long sequence optimization, and removed transpose step after attention switching to transpose_batchmatmul. #3848 #3778 #5390
Quantization Performance: Moved quantization before allgather in Allgather EP. #3420
Layerwise Connector: [Experimental]Improved performance of Layerwise Connector. #5303
Prefix Cache: Improved performance of prefix cache features. #4022
Async Scheduling: Fixed async copy and eliminated hangs in async scheduling. #4113 #4233
Memory Operations: Removed redundant D2H operations and deleted redundant operations in model_runner. #4063 #3677
Rope Embedding: Optimized rope embedding with triton kernel for huge performance gain. #5918
Sampling: Added support for advanced apply_top_k_top_p without top_k constraint. #6098
Multimodal: Parallelized Q/K/V padding in AscendMMEncoderAttention for better performance. #6204
依赖关系#
弃用及重大变更#
CPUOffloadingConnector is deprecated. We'll remove it in the next release. It'll be replaced by CPUOffload feature from vLLM in the future.
ProfileExecuteDuration feature is deprecated.
Ascend Scheduler has been dropped. #4623
Torchair has been dropped. #4814
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE is removed and
VLLM_ASCEND_ENABLE_PREFETCH_MLPis recommended to replace as they were always enabled together. #5272VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP is dropped now. #5270
VLLM_ASCEND_ENABLE_NZ is disabled for float weight case, since we noticed that the performance is not good in some float cases. Feel free to set it to 2 if you make sure it works for your case. #4878
chunked_prefill_for_mla in
additional_configis dropped now. #5296dump_config in
additional_configis renamed todump_config_pathand the type is changed fromdicttostring. #5296--task parameter for embedding models is deprecated. #5257
The value of VLLM_ASCEND_ENABLE_MLAPO env will be set to True by default in the next release. It'll be enabled in decode node by default. Please note that this feature will cost more memory. If you are memory sensitive, please set it to False.
Documentation#
Added comprehensive developer guides for ACLGraph, MTP, KV Pool, EPLB, and PD disaggregation features
Added tutorials for multiple models including DeepSeek-V3.2-Exp, Qwen3-Next, and various multimodal models
Updated FAQ and configuration documentation
其他#
OOM Fix: OOM error on VL models is fixed now. We're keeping observing it. If you hit OOM problem again, please submit an issue. #5136
Qwen3-Next-MTP Accuracy: Fixed an accuracy bug of Qwen3-Next-MTP when batched inferring. #4932
ZMQ Bug Fix: Fixed zmq send/receive failed bug. #5503
Weight Transpose: Fixed weight transpose in RL scenarios. #5567
Eagle3 SP: Adapted SP to eagle3. #5562
GLM4.6 MTP: GLM4.6 now supports MTP with fullgraph. #5460
Flashcomm2 Oshard: Flashcomm2 now works with oshard generalized feature. #4723
Fine-grained Shared Expert Overlap: Support fine-grained shared expert overlap. #5962
已知问题#
Due the upgrade of
transformerspackage, some models quantization weight, such asqwen2.5vl,gemma3,minimax, may not work. We'll fix it in the next post release. #6302The performance of
Qwen3-32Bwill not be good with 128K input case, it's suggested to enable pcp&dcp feature for this case. This will be improved in the next CANN release.The performance of
Qwen3-235B,Qwen3-480Bunder prefill-decode scenario and EP=32 scenario is not good as expect. We'll improve it in the next post release.When deploy deepseek3.1 under prefill-decode scenario, please make sure the tp size for decode node is great than 1.
TP=1doesn't work. This will be fixed in the next CANN release.
v0.13.0rc2 - 2026.01.24#
This is the second release candidate of v0.13.0 for vLLM Ascend. In this rc release, we fixed lots of bugs and improved the performance of many models. Please follow the official doc to get started. Any feedback is welcome to help us to improve the final version of v0.13.0.
亮点#
We mainly focus on quality and performance improvement in this release. The spec decode, graph mode, context parallel and EPLB have been improved significantly. A lot of bugs have been fixed and the performance has been improved for DeepSeek3.1/3.2, Qwen3 Dense/MOE models.
功能#
implement basic framework for batch invariant #5517
Eagle spec decode feature now works with full graph mode. #5118
Context Parallel(PCP&DCP) feature is more stable now. And it works for most case. Please try it out.
MTP and eagle spec decode feature now works in most cases. And it's suggested to use them in most cases.
EPLB feature more stable now. Many bugs have been fixed. Mix placement works now #6086
Support kv nz feature for DeepSeek decode node in disagg-prefill scenario #3072
Model Support#
性能#
Many custom ops and triton kernels are added in this release to speed up the performance of models. Such as
RejectSampler,MoeInitRoutingCustom,DispatchFFNCombineand so on.Improved the performance of Layerwise Connector #5303
其他#
Basic support Model Runner v2. Model Runner V2 is the next generation of vLLM. It will be used by default in the future release. #5210
Fixed a bug that the zmq send/receive may failed #5503
Supported to use full-graph with Qwen3-Next-MTP #5477
Fix weight transpose in RL scenarios #5567
Adapted SP to eagle3 #5562
Context Parallel(PCP&DCP) support mlapo #5672
GLM4.6 support mtp with fullgraph #5460
Flashcomm2 now works with oshard generalized feature #4723
Support setting tp=1 for the Eagle draft model #5804
Flashcomm1 feature now works with qwen3-vl #5848
Support fine-grained shared expert overlap #5962
依赖关系#
CANN is upgraded to 8.5.0
torch-npu is upgraded to 2.8.0.post1. Please note that the post version will not be installed by default. Please install it by hand from pypi mirror.
triton-ascend is upgraded to 3.2.0
弃用及重大变更#
CPUOffloadingConnectoris deprecated. We'll remove it in the next release. It'll be replaced by CPUOffload feature from vLLM in the future.eplb config options is moved to
eplb_configin additional config. The old ones will be removed in the next release.ProfileExecuteDurationfeature is deprecated. It's replaced byObservabilityConfigfrom vLLM.The value of
VLLM_ASCEND_ENABLE_MLAPOenv will be set to True by default in the next release. It'll be enabled in decode node by default. Please note that this feature will cost more memory. If you are memory sensitive, please set it to False.
v0.13.0rc1 - 2025.12.27#
这是 vLLM Ascend v0.13.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。
亮点#
功能#
性能#
一些常规性能改进:
添加 l2norm triton 算子 #4595
为带 SP 的 AddRmsnormQuant 添加新模式,该模式仅在图模式下生效。#5077
在模型执行时添加异步指数计算。#4501
移除了 attention 后的转置步骤,并切换到 transpose_batchmatmul。#5390
为了优化小 batch size 场景下的性能,提供了一个带有 flash decoding 功能的 attention 算子,请参考 常见问题 (FAQs) 第 22 条来启用它。
其它#
弃用及重大变更#
移除了
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE,建议替换为VLLM_ASCEND_ENABLE_PREFETCH_MLP,因为它们通常总是同时启用的。#5272现已废弃
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。#5270由于我们注意到在某些 float 权重场景下性能不佳,现已针对该场景禁用了
VLLM_ASCEND_ENABLE_NZ。如果您确定其在您的场景下有效,可以手动将其设置为 2。#4878现已废弃
additional_config中的chunked_prefill_for_mla。#5296additional_config中的dump_config已重命名为dump_config_path,且类型从dict更改为string。#5296
依赖关系#
已知问题#
v0.11.0 - 2025.12.16#
我们很高兴宣布 vLLM Ascend v0.11.0 正式发布。请按照 官方文档 开始使用。如果有需要,我们未来会考虑发布 post 版本。本发行说明仅包含自 v0.11.0rc3 以来的重要变更和注意事项。
亮点#
其它#
弃用公告#
LLMdatadist connector 已被弃用,将于 v0.12.0rc1 中移除
Torchair graph 已被弃用,将于 v0.12.0rc1 中移除
Ascend scheduler 已被弃用,将于 v0.12.0rc1 中移除
升级说明#
torch-npu 已升级到 2.7.1.post1。请注意,该软件包已推送到 pypi 镜像站。因此很难将其添加到自动依赖项中,请自行手动安装。
CANN 已升级至 8.3.rc2。
已知问题#
在此版本中,Qwen3-Next 不支持专家并行(expert parallel)和 MTP 功能。且如果输入太长,会导致 OOM。我们将在下一个版本中改进这一点。
在此版本中,Deepseek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认无法工作。临时解决方案是将
--gpu-memory-utilization设置为合适的值,例如 0.8。如果同一节点上运行了多个 vLLM 实例,CPU 绑定功能将失效。
v0.12.0rc1 - 2025.12.13#
这是 vLLM Ascend v0.12.0 的第一个候选发布版本。在此版本中,我们完成了大量的错误修复、性能改进和功能支持。欢迎提供任何反馈以帮助我们改进 vLLM Ascend。请按照 官方文档 开始使用。
亮点#
DeepSeek 3.2 现在运行稳定且性能得到提升。在此版本中,您无需安装任何其他额外包。请参考 官方教程 开始使用。
异步调度器(Async scheduler)现在更加稳定并可以启用了。请设置
--async-scheduling来启用它。现在支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR 和 OpenCUA。
核心#
[实验性功能] 现已支持纯解码图模式(Full decode only graph mode)。虽然默认不启用,但我们建议在大多数情况下通过
--compilation-config '{""cudagraph_mode"":""FULL_DECODE_ONLY""}'启用它。如果您遇到任何错误,请告知我们。我们将在后续几个版本中继续改进并默认启用它。添加了大量的 triton 算子。vLLM Ascend 的性能(尤其是 Qwen3-Next 和 DeepSeek 3.2)得到了提升。请注意,triton 默认不会安装和启用,但我们建议在大多数场景下启用。您可以从 软件包地址 手动下载安装。如果您是在 X86 平台上运行 vLLM Ascend,则需要从 源码 自行构建 triton ascend。
添加了大量昇腾(Ascend)算子以提升性能。这意味着从该版本开始,vLLM Ascend 仅能在使用自定义算子构建的情况下工作。因此,我们移除了环境变量
COMPILE_CUSTOM_KERNELS,您现在无法将其设置为 0。投机解码方法
MTP现在更加稳定。它可以在大多数情况下启用,且解码 token 数量可以设置为 1、2、3。现已支持投机解码方法
suffix。感谢招商银行的贡献。llm-compressor 量化工具的 W8A8 现在可以正常使用了。您现在可以直接部署使用该工具生成的 W8A8 量化模型。
W4A4 量化现在可以正常工作了。
现已支持 Pooling 模型,如 bge、reranker 等
官方文档已改进。我们重构了教程以使其更加清晰。用户指南和开发指南现在也更加完善。我们将持续改进。
其它#
[实验性功能] 现已支持 Mooncake 分层连接器(layerwise connector)。
[实验性功能] 添加了 KV cache 池 功能
[实验性功能] 引入了新的图模式
xlite。它在某些模型上表现良好。请参考 官方教程 开始使用。移除了 LLMdatadist kv 连接器。请使用 mooncake 连接器代替。
移除了 Ascend scheduler。
--additional-config {""ascend_scheudler"": {""enabled"": true}}不再起作用。移除了 Torchair 图模式。
--additional-config {""torchair_graph_config"": {""enabled"": true}}不再起作用。请使用 aclgraph 代替。移除了
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION环境变量。该功能已足够稳定,我们现在默认启用它。投机解码方法
Ngram现已回归。添加了 msprobe 工具以帮助用户检查模型精度。请参考 官方文档 开始使用。
添加了 msserviceprofiler 工具以帮助用户进行模型性能调优(profiling)。请参考 官方文档 开始使用。
升级说明#
移除了 vLLM Ascend 自行维护的模型文件。相关的 Python 入口点也已被移除。因此,请在升级前卸载您环境中的旧版 vLLM Ascend。
CANN 已升级至 8.3.RC2,Pytorch 和 torch-npu 已升级至 2.8.0。请不要忘记安装它们。
停止支持 Python 3.9,以与 vLLM v0.12.0 保持一致。
已知问题#
DeepSeek 3/3.1 和 Qwen3 无法在 FULL_DECODE_ONLY 图模式下工作。我们将在下一个版本中修复它。#4990
DeepSeek 3.2 无法配合 chat template 使用。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中支持。
在某些情况下,DeepSeek 3.2 无法在高并发下工作。我们将在下一个版本中修复它。#4996
我们注意到 bf16/fp16 模型的性能表现不佳,这主要是由于默认启用了
VLLM_ASCEND_ENABLE_NZ。请设置VLLM_ASCEND_ENABLE_NZ=0来禁用它。我们将在下一个版本中添加自动检测机制。投机解码方法
suffix无法工作。我们将在下一个版本中修复它。您可以采纳(pick)此 commit 来修复该问题:#5010
v0.11.0rc3 - 2025.12.03#
这是 vLLM Ascend v0.11.0 的第三个候选发布版本。出于质量考虑,我们在正式发布前推出了新的 rc 版本。感谢您的所有反馈。请按照 官方文档 开始使用。
亮点#
其它#
v0.11.0rc2 - 2025.11.21#
这是 vLLM Ascend v0.11.0 的第二个候选发布版本。在此版本中,我们解决了许多错误以提升质量。感谢您的所有反馈。我们将继续致力于错误修复和性能改进。v0.11.0 正式版即将发布。请按照 官方文档 开始使用。
亮点#
核心#
其它#
修复了全解码模式(full decode only mode)的一个问题。全图模式(Full graph mode)现在更稳定。 #4106 #4282
修复了 DeepSeek V3 系列模型中的 allgather 算子 bug。 #3711
修复了多模态(vl)模型无法在 x86 机器上运行的问题。 #4285
预填充解耦代理(prefill disaggregation proxy)支持 IPv6。请注意,mooncake 连接器尚不支持 IPv6,我们正在处理。 #4242
增加了一项检查,以确保在量化场景下 EPLB 仅支持 w8a8 方法。 #4315
增加了一项检查,以确保 FLASHCOMM 功能不与多模态(vl)模型冲突。该功能将在 2025 年第四季度支持。 #4222
容器中已安装音频所需的库。 #4324
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个候选版本。请参考 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个正式发布版本,我们将在接下来的几天内发布。欢迎任何反馈以帮助我们改进 v0.11.0。
亮点#
核心#
其它#
已知问题#
在长时间提供服务后,可能会出现内存泄漏和进程挂起。这是 torch-npu 的一个 bug,我们将很快升级并修复。
Qwen2.5 VL 的精度表现不佳。这是由 CANN 引起的一个 bug,我们将很快修复。
在长序列输入的情况下,有时会出现无响应且 KV Cache 占用过高。这是调度器(scheduler)的一个 bug,我们正在修复中。
Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将
--gpu-memory-utilization设置为一个合适的值,例如 0.8。当启用专家并行运行 Qwen3-Next 时,请将
HCCL_BUFFSIZE环境变量设置为合适的值,例如 1024。在 aclgraph 模式下 DeepSeek 3.2 的精度不正确。临时解决方案是根据输入的 batch size 将
cudagraph_capture_sizes设置为合适的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特殊候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
提升了 W8A8 量化的性能。#2275
修复了应用投机解码和 aclgraph 时资源限制导致的错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充阶段滑动窗口注意力的 bug。#2758
添加了 Qwen3 预填充-解码解耦(PD Disaggregation)的官方文档。#2751
环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP现已重新生效。#2740为 DeepSeek 的 oproj 增加了新的优化。设置
oproj_tensor_parallel_size即可启用此特性。#2167修复了设置
graph_batch_sizes时,DeepSeek 与 torchair 协同工作不符合预期的问题。#2760避免在 kv_seqlen > 4k 的 RoPE 计算中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 密集(dense)模型的性能。设置
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1和VLLM_ASCEND_ENABLE_FLASHCOMM=1即可启用。#2779通过预取(prefetch)特性提升了 Qwen3 密集(dense)模型的性能。设置
VLLM_ASCEND_ENABLE_PREFETCH_MLP=1即可启用。#2816通过 RoPE 算子更新提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
增加了 warm_up_atb 步骤以加快推理速度。#2823
修复了 MoE 模型在 aclgraph 模式下的流(stream)错误。#2827
已知问题#
当在预填充(P)和解码(D)阶段使用不同的 TP 大小运行 PD 解耦时,服务器会挂起。该问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以手动拉取此 commit 来修复该问题。
Qwen3-Next 的显存(HBM)占用高于预期。这是一个 已知问题,我们正在处理。您可以根据并行配置将
max_model_len和gpu_memory_utilization设置为合适的值,以避免显存溢出(OOM)。我们注意到,由于 KV Cache 的重构,LoRA 在此版本中无法工作。我们将尽快修复。2941
在使用 Ascend 调度器时,请勿同时启用分块预填充(chunked prefill)和前缀缓存(prefix cache),否则性能和精度将不理想或不正确。#2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个候选发布版本。请按照 官方文档 开始使用。
亮点#
核心#
其他#
Bug 修复:
通过大量 PR 提升了性能:
通过一批重构 PR 增强了代码架构:
参数变更:
在
additional_config中增加了lmhead_tensor_parallel_size,设置此项可启用 lmhead 张量并行。#2309移除了若干不再使用的环境变量:
HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT以及LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT现已更名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450增加了环境变量
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于控制在启用张量并行时是否开启 MLP 优化。该特性可在 eager 模式下提供更好的性能。#2120从环境变量中移除了
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中增加了enable_prefetch,用于控制是否启用权重预取(prefetch)。#2465在
additional_config.torchair_graph_config中增加了mode参数。当对 torchair 使用 reduce-overhead 模式时,需要设置此模式。#2461additional_config中的enable_shared_expert_dp现已默认禁用。建议在对 DeepSeek 进行推理时启用此项。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴宣布 vLLM Ascend 的最新正式版本发布。此版本包含了许多新功能支持、性能优化以及 bug 修复。我们建议用户从 0.7.3 版本升级至此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。
在此版本中,我们针对大规模专家并行(EP)场景增加了许多增强功能。建议参考 官方指南。
请注意,此发布说明将列出自上一个正式版本(v0.7.3)以来的所有重要变更。
亮点#
已实现对 DeepSeek V3/R1 的高质量和高性能支持。MTP 也可以与 DeepSeek 协同工作。请参考 多节点教程 和 大规模专家并行 文档。
Qwen 系列模型现在支持图模式运行。在使用 V1 引擎时默认启用。请参考 Qwen 教程。
V1 引擎现已支持解耦预填充(Disaggregated Prefilling)。请参考 大规模专家并行 教程。
支持自动前缀缓存(Automatic prefix caching)和分块预填充(chunked prefill)特性。
投机解码(Speculative decoding)特性现已支持 Ngram 和 MTP 方法。
现已支持 MoE 和密集(dense)模型的 w4a8 量化。请参考 量化指南。
V1 引擎现已支持睡眠模式(Sleep Mode)。请参考 睡眠模式教程。
增加了动态和静态 EPLB 支持。该特性目前仍处于实验阶段。
注意#
以下说明特别供从上一个正式版本(v0.7.3)升级时参考:
从此版本起不再支持 V0 引擎。请务必设置
VLLM_USE_V1=1以在 vLLM Ascend 中使用 V1 引擎。此版本不再需要 Mindie Turbo,且旧版本的 Mindie Turbo 并不兼容。请不要安装。目前所有的功能和增强都已包含在 vLLM Ascend 中。如有需要,我们将来会考虑重新添加支持。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请务必同步升级。
核心#
为 V1 引擎增加了 Ascend 调度器。该调度器与 Ascend 硬件的亲和性更高。
结构化输出(Structured output)功能现在可以在 V1 引擎上运行。
增加了一批自定义算子以提升性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行(TP)。此版本暂不支持 DP/EP 运行该模式。
此版本的 V1 引擎暂不支持流水线并行(Pipeline parallelism)。
如果在 eager 模式下使用 w4a8 量化,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免显存溢出(OOM)。使用某些工具进行的精度测试可能不准确。这不会影响真实用户场景。我们将在下一个补丁版本中修复此问题。#2654
我们注意到在运行预填充-解码解耦时仍存在一些问题,例如内存泄漏和管理服务卡死。这些是 vLLM 和 vLLM Ascend 的已知问题。我们将在下一个补丁版本中进行修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第 3 个候选发布版本。请按照 官方文档 开始使用。
核心#
MTP 现在支持 V1 调度器。#2371
增加了 LMhead 张量并行(TP)通信组。#1956
修复了 Qwen3 MoE 模型在 aclgraph 模式下无法工作的 bug。#2478
修复了由过时的
apply_grammar_bitmask方法导致的grammar_bitmask索引越界(IndexError)错误。#2314移除了
chunked_prefill_for_mla参数。#2177修复了 bug 并重构了缓存掩码生成逻辑。#2326
修复了关于 Ascend 调度器的配置检查逻辑。#2327
在解耦预填充部署场景下,取消了 DeepSeek-MTP 与非 Ascend 调度器之间的校验。#2368
修复了 Ray 分布式后端失效的问题。#2306
修复了 Ascend 调度器中错误的请求块长度。#2394
修复了 RoPE 中的头文件包含问题。#2398
修复了 MTP 的配置 bug。#2412
修正了错误信息并适配了
attn_metedata的重构。#2402修复了因配置不匹配及
.kv_cache_bytes文件缺失导致的 torchair 运行错误。#2312将
with_prefill阶段的 allreduce 从 CPU 迁移至 NPU。#2230
文档#
增加了 DeepSeek 大规模专家并行(EP)的文档。#2339
已知问题#
修复了 A2 (910B1) 上开启
"full_cuda_graph": True时test_aclgraph.py失败的问题。#2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选发布版本。请按照 官方文档 开始使用。在此版本中,V0 引擎已被完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级至
2.7.1.dev20250724。#1562。CANN 已升级至8.2.RC1。#1653。请不要忘记在您的环境中更新它们,或使用最新的镜像。vLLM Ascend 现在支持 Atlas 800I A3,且从该版本起将发布适用于 A3 的镜像。#1582
vLLM Ascend 已支持采用 w8a8 量化的 Kimi-K2、Qwen3-Coder 以及 GLM-4.5。请参考此 教程 进行尝试。#2162
V1 引擎现在已支持流水线并行(Pipeline Parallelism)。#1800
前缀缓存(Prefix cache)功能现在可以与 Ascend 调度器协同工作。#1446
Torchair 图模式(graph mode)现在支持张量并行度(tp)大于 4 的场景。#1508
MTP 现在支持 torchair 图模式。#2145
其他#
Bug 修复:
通过大量 PR 提升了性能:
将 sin/cos 进行缓存,而非在每一层都重新计算。#1890
改进了共享专家(shared expert)的多流并行性。#1891
实现了在启用 TP 时的预填充阶段 matmul 与 allreduce 的融合。通过设置
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE=1可启用此特性。#1926通过减少 All2All 通信优化了量化 MoE 模型的性能。#2195
在自定义模型中使用 AddRmsNormQuant 算子以优化 Qwen3 的性能。#1806
使用组播(multicast)避免将解码请求填充(padding)至预填充大小。#1555
提升了 LoRA 的性能。#1884
通过一批重构 PR 增强了代码架构:
参数变更:
additional_config中的expert_tensor_parallel_size现已移除,现在的 EP(专家并行)和 TP(张量并行)逻辑与 vLLM 官方保持一致。#1681增加了环境变量
VLLM_ASCEND_MLA_PA,用于在 DeepSeek MLA 解码阶段启用 mla paged attention 算子。增加了环境变量
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE。启用后,在张量并行模式下将使用MatmulAllReduce融合内核。该特性支持 A2 硬件,并能在 eager 模式下获得更好的性能。增加了环境变量
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于控制是否启用 MoE all2all seq。这在 alltoall 的基础上提供了一个基础框架,便于后续扩展。
在遵循 RFC #1298 的一批 PR 之后,单元测试(UT)覆盖率达到了 76.34%。
序列并行(Sequence Parallelism)现在支持 Qwen3 MoE 模型。#2209
现在已增加中文在线文档。#1870
已知问题#
目前 Aclgraph 无法与 DP + EP 并行模式同时使用。主要瓶颈在于 Aclgraph 捕获图所需的 NPU 流(stream)数量不足。#2229
在启用多流(multistream)的情况下,W8A8 动态量化的 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232
在 Qwen3 MoE 中,序列并行(SP)目前无法合并入 Aclgraph 图中。#2246
MTP 目前不支持 V1 调度器,计划在第三季度(Q3)修复。#2254
当在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的一些已知问题,需要禁用指标日志记录(metrics logger)。#2254
v0.9.1rc2 - 2025.08.04#
这是 vLLM Ascend v0.9.1 的第二个候选发布版本。请按照 官方文档 开始使用。
亮点#
模型改进#
DeepSeek DBO 支持及其改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进及其 bug 修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 针对 rmsnorm/repo/mlp 等算子的性能改进:#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 针对分块预填充/图模式/多流(multistream)的改进及 bug 修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
通过改进 mrope/padding 机制提升了 Qwen2.5 VL 的性能:#1261 #1705 #1929 #2007
Ray:修复了使用 Ray 时的设备错误,增加了
initialize_cache并改进了警告信息:improve warning info: #1234 #1501
图模式改进#
在 #1269 中修复了 DeepSeek 配合 mc2 使用的问题。
在 #1332 中修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。
在 #1570 中修复了
torchair_graph_batch_sizes的 bug。在 #1404 中为 torchair 图模式启用了 tp <= 4 的限制。
修复了 RoPE 精度 bug。#1887
在 FusedMoE 中支持共享专家的多流并行。#997
在 torchair 图模式下的解码过程中启用
kvcache_nz。#1098修复了使用 torchair 时分块预填充的情况,解决了 #1378 中的
UnboundLocalError: local variable 'decode_hs_or_q_c'问题。在 #1561 中提升了 w8a8 动态量化下共享专家的多流性能。
在 #1882 中修复了设置多流时的 MoE 错误。
在 EP 场景下将图 batch size 向上取整至 tp 大小的倍数。#1610
在 #1727 中修复了启用 DP 时的 torchair bug。
在 #1675 中为
torchair_graph_config增加了额外的检查。在 #1693 中修复了 torchair + 分块预填充场景下的 RoPE bug。
在 #1748 中修复了
chunked_prefill为 true 时的torchair_graphbug。在 #2090 中改进了预填充优化以支持 torchair 图模式。
修复了 DP 场景下的 rank 设置问题。#1247
在 #1397 中重置了所有未使用的位置以防止越界,从而解决了 GatherV3 的 bug。
在 #1393 中移除了 ModelRunner 中重复的多模态代码。
在 #1297 中修复了 block table 的形状以解决精度问题。
在 #1503 中针对受限场景实现了初步的全图模式(full graph)。
在 #1677 中为了性能在全图模式中恢复了 paged attention 内核。
在 #1829 中修复了极端
--gpu-memory-utilization设置下的 DeepSeek OOM 问题。在 #2154 中设定了启用 TorchAir 时自动关闭 aclgraph。
算子改进#
核心:#
在 #2036 中将 CANN 升级至 8.2.rc1。
在 #2135 中将 torch-npu 升级至 2.5.1.post1。
在 #2136 中将 Python 升级至 3.11。
在 #1749 中禁用了
mindie_turbo中的量化。在 #1323 中修复了 V0 引擎的投机解码问题。
在 #1271 中设定了仅在使用 V0 投机解码时才直接启用
ACL_OP_INIT_MODE=1。在 #1422 中重构了
forward_context和model_runner_v1。在 #1423 中修复了采样参数问题。
在 #1409 中增加了启用权重 NZ 布局的开关,并为 GMM 启用了 NZ。
在 #1492 中通过处理
PrefillCacheHit状态修复了前缀缓存精度 bug。在 #1651 中修复了权重加载错误并增加了新的端到端测试用例。
在 #1614 中优化了 DeepSeek 中与 RoPE 相关的索引选择次数。
在 #1642 中增加了 mc2 掩码。
在 #1703 中为预填充增加了分块 mc2。
在 #1711 中修复了 mc2 算子的
GroupCoordinatorbug。在 #1721 中修复了无法识别实际量化类型的问题。
在 #1755 中修复了 DeepSeek 在
tp_size == 1时的 bug。在 #1691 中增加了预填充节点对无延迟块(delay-free blocks)的支持。
在 #1547 中针对未量化的 RL 训练进行了 MoE alltoallv 通信优化,并使 alltoallv 支持 DPO。
在 #1822 中适配了
dispatchV2接口。在 #1807 中修复了解耦预填充在长输出时的悬挂(hang)问题。
在 #1859 中修复了 V0 引擎下的
flashcomm_v1问题。在 #1862 中修复了某些情况下
ep_group不等于word_size的问题。在 #1808 中修复了 wheel 包 glibc 版本不兼容的问题。
在 #1831 中修复了 mc2 进程组以解决
self.cpu_group为 None 的问题。在 #1904 中将 vLLM 版本固定为 v0.9.1 以通过 mypy 检查。
在 #1902 中为 MoE 应用了
npu_moe_gating_top_k_softmax以提升性能。在 #1919 中修复了 V0 引擎下
path_decorator的 bug。在 #1644 中避免了在解耦预填充(disaggregated-prefill)场景下执行 CPU all_reduce。
在 #1916 中为解码阶段的 MoE 增加了 super kernel。
[预填充性能] 并行策略优化(显存换速度的权衡),见 #1802。
在 #2016 中移除了
shared_experts.down_proj中不必要的reduce_results访问。在 #2002 中通过向量化优化了 greedy reject 采样器。
在 #1936 中实现了在单机上运行多个 P 节点(Prefill)和 D 节点(Decode)。
在 #2075 中修复了 DeepSeek 模型在启用 tp > 1 和
multistream_moe时,共享专家与路由专家之间的形状冲突问题。增加了 CPU 绑定支持。#2031。
在 #2129 中增加了
with_prefillCPU allreduce 以处理 D 节点的重计算。在 #2038 中增加了 D2H 和
initRoutingQuantV2以提升预填充性能。
文档#
已知问题#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。
亮点#
核心#
其他#
官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。
修复了 DeepSeek V3/R1 模型在使用 torchair 图模式进行长序列预测时的精度问题。#1331
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 DeepSeek V3/R1 模型的融合 allgather-experts 内核。默认值为0。#1335新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项。#1732已修复了一批与数据并行(Data Parallelism)相关的 bug:#1273 #1322 #1275 #1478
Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
在 V1 引擎中支持使用 prompt logprobs 来恢复 ceval 准确率。#1483
已知问题#
流水线并行(Pipeline parallel)无法与 Ray 和图模式共同工作,详见:issue #1751, #1754
新贡献者#
@xleoken 在 #1357 中做出了首次贡献
@lyj-jjj 在 #1335 中做出了首次贡献
@sharonyunyun 在 #1194 中做出了首次贡献
@Pr0Wh1teGivee 在 #1308 中做出了首次贡献
@leo-pony 在 #1374 中做出了首次贡献
@zeshengzong 在 #1452 中做出了首次贡献
@GDzhu01 在 #1477 中做出了首次贡献
@Agonixiaoxiao 在 #1531 中做出了首次贡献
@zhanghw0354 在 #1476 中做出了首次贡献
@farawayboat 在 #1591 中做出了首次贡献
@wm901115nwpu 在 #1654 中做出了首次贡献
完整更新日志: v0.9.1rc1...1.9.2rc1
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
实验性功能#
本版本对 Atlas 300I 系列提供了实验性支持(已通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B 的功能测试)。#1333
支持 EAGLE-3 进行推测式解码。#1032
经过慎重考虑,考虑到 v0.9.1 版本的发布质量要求以及功能的快速迭代,上述功能将不会包含在 v0.9.1-dev 分支(v0.9.1 正式版)中。我们将在 0.9.2rc1 及更高版本中对此进行改进。
核心#
其他改进#
为 MLA 初步支持分块预填充(Chunked Prefill)。#1172
新增了一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持在 AscendScheduler 中使用推测式解码功能。#943
提升了
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置 bug。#884
修复了在使用静态 EPLB 特性时 log2phy 出现 NoneType 的 bug。#1186
重构 AscendFusedMoE #1229
新增初始用户故事页面(包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)。#1224
添加单元测试框架 #1201
已知问题#
完整更新日志#
新贡献者#
@farawayboat 在 #1333 中做出了首次贡献
@yzim 在 #1159 中做出了首次贡献
@chenwaner 在 1098 中做出了首次贡献
@wangyanhui-cmss 在 #1184 中做出了首次贡献
@songshanhu07 在 #1186 中做出了首次贡献
@yuancaoyaoHW 在 #1032 中做出了首次贡献
完整更新日志: v0.9.0rc2...v0.9.1rc1
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复了当 vllm-ascend 以非可编辑方式安装时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开启您的旅程。从本次发布开始,推荐使用 V1 引擎。V0 引擎的代码已被冻结且不再维护。请设置环境变量 VLLM_USE_V1=1 以启用 V1 引擎。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。
多节点数据并行(Data-Parallel)在此版本中无法使用。这是 vLLM 中已知的问题,已在主分支中修复。#18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个修订版本(post release)。请按照官方文档开始使用。本次更新包括以下更改:
亮点#
漏洞修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已通过充分的测试和验证。我们鼓励您试用并提供反馈。如有需要,我们将在未来发布 Bug 修复版本。请参阅官方文档开启您的旅程。
亮点#
本次发布包含了之前所有候选版本中引入的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能均经过全面测试和验证。请访问官方文档获取详细的功能支持矩阵和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充(Chunked Prefill)和自动前缀缓存(Automatic Prefix Caching)功能。您现在可以启用它们了。
将 PyTorch 升级到 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户无需再手动安装 torch-npu,2.5.1 版本的 torch-npu 将被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 中,提升了 DeepSeek V3/R1 及 Qwen 2 系列模型的性能。#708
核心#
现已支持 LoRA、多 LoRA 及动态服务(Dynamic Serving)。性能将在下一个版本中进一步优化。更多用法请参阅官方文档。感谢招商银行的贡献。#700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开启您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,详情请查看特性支持矩阵。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1。#715
修复了在 profile_run 期间
CustomDeepseekV2MoE.forward过早返回的问题。#682适配了由 modelslim 生成的新量化模型。#719
初步支持基于 llm_datadist 的 P2P 存算分离预填充(Disaggregated Prefill)。#694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git目录,以修复在/workspace下启动 vLLM 时的问题。#726优化了 NPU 内存占用,使得 DeepSeek R1 W8A8 模型能够支持 32K 的上下文长度。#728
修复了
setup.py中PYTHON_INCLUDE_PATH的拼写错误。#762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend v0.8.4 的第二个候选发布版本。请按照官方文档开启您的旅程。本版本包含了一些实验性功能,如 W8A8 量化以及专家并行(EP)/数据并行(DP)支持。我们将在下一个版本中进一步提升这些功能的稳定性。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开启您的旅程。从本版本起,vllm-ascend 将跟随 vLLM 的最新版本,每两周发布一次。例如,若 vLLM 在未来两周内发布 v0.8.5,则 vllm-ascend 将发布 v0.8.5rc1 而非 v0.8.4rc2。详情请参阅版本发布政策。
亮点#
核心#
为 V1 引擎新增了 Ascend 调度器,该调度器与 Ascend 硬件具有更好的亲和性。未来将加入更多调度策略。#543
支持分离式预填充(Disaggregated Prefill)。目前仅支持 1P1D 模式。vLLM 团队正在设计 NPND 模式,一旦 vLLM 完成支持,vllm-ascend 将同步适配。使用方法请参考官方指南。#432
猜测性解码(Speculative Decoding)现已可用。目前仅支持 V0 引擎,V1 引擎支持即将推出。#500
结构化输出(Structured Output)功能现已支持 V1 引擎。目前仅支持 xgrammar 后端,使用 guidance 后端可能会报错。#555
其他#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选发布版本。请参考官方文档开始使用。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 版本升级至 dev20250320.3 以提升精度并修复输出
!!!的问题。#406
模型#
通过优化 Patch Embedding (Conv3D),提升了 Qwen2-VL 的性能。#398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请参考官方文档开启您的体验。
容器快速入门:https://docs.vllm.ai/projects/ascend/en/v0.7.3/quick_start.html
安装指南:https://docs.vllm.ai/projects/ascend/en/v0.7.3/installation.html
亮点#
核心#
将 torch_npu 升级至 dev20250308.3 以提升
_exponential的精度。初步支持池化模型(Pooling Models)。基于 BERT 的模型(如
bge-base-en-v1.5和bge-reranker-v2-m3)现已支持。#229
模型#
其他#
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴宣布 vllm-ascend v0.7.1 第一个候选版本的发布。
vLLM Ascend Plugin (vllm-ascend) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。本版本让用户能够在 Ascend 硬件上使用 vLLM 的最新功能。
请参阅官方文档开启您的旅程。由于这是候选发布版,可能存在 Bug,欢迎在此处提供反馈。
亮点#
核心#
其他#
已知问题#
本版本依赖于一个尚未正式发布的 torch_npu 版本,官方容器镜像中已内置。若您在非容器环境下运行,请手动安装。
运行时可能会出现
No platform detected...或Failed to import from vllm._C...的日志提示,这并不影响功能与性能,可以忽略。此问题已在相关 PR 中修复,并已包含在 v0.7.3 中。运行时可能会将 NPU block 错误地显示为
# CPU blocks,这不影响功能与性能,可以忽略。该显示问题已修复,并已包含在 v0.7.3 中。