发布说明

发布说明#

v0.11.0 - 2025.12.16#

我们很高兴地宣布 vLLM Ascend v0.11.0 版本正式发布。这是 v0.11.0 的官方版本。请按照官方文档开始使用。我们将在未来根据需要发布后续版本。本发布说明仅包含自 v0.11.0rc3 以来的重要更改和说明。

亮点#

提升了 deepseek 3/3.1 的性能。#3995
修复了 qwen3-vl 的精度问题。#4811
提升了采样性能。#4153
Eagle3 现已恢复支持。#4721

其他#

提升了 kimi-k2 的性能。#4555
修复了 deepseek3.2-exp 的量化问题。#4797
修复了高并发下 qwen3-vl-moe 的问题。#4658
修复了预填充解码分离场景下的精度问题。#4437
修复了 EPLB 的一些问题。#4576 #4777
修复了 openEuler Docker 镜像的版本兼容性问题。#4745

弃用声明#

LLMdatadist 连接器已被弃用，将在 v0.12.0rc1 中移除
Torchair 图模式已被弃用，将在 v0.12.0rc1 中移除
Ascend 调度器已被弃用，将在 v0.12.0rc1 中移除

升级须知#

torch-npu 已升级至 2.7.1.post1。请注意，该软件包被推送至 pypi 镜像站，因此难以自动添加依赖，请自行安装。
CANN 已升级至 8.3.rc2。

已知问题#

Qwen3-Next 在此版本中不支持专家并行和 MTP 功能。如果输入过长，可能会导致 OOM。我们将在下一个版本中改进。
Deepseek 3.2 在此版本中仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认情况下无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适值，例如 0.8。
如果在同一节点上运行多个 vLLM 实例，CPU 绑定功能将不起作用。

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选版本。出于质量考虑，我们在正式发布前发布了新的 rc。感谢所有反馈。请按照官方文档开始使用。

亮点#

torch-npu 已升级至 2.7.1.post1。请注意，该软件包被推送至 pypi 镜像站，因此难以自动添加依赖，请自行安装。
禁用 NZ 权重加载器以加速稠密模型。请注意，这是一个临时解决方案。如果您发现性能变差，请告知我们。我们将持续改进。#4495
mooncake 现已安装在官方 Docker 镜像中。您可以在容器中直接使用。#4506

其他#

修复了 MoE 模型的 OOM 问题。#4367
修复了多模态模型在 DP>1 运行时挂起的问题。#4393
修复了 EPLB 的一些问题。#4416
修复了 mtp>1 + lm_head_tp>1 场景的问题。#4360
修复了 vLLM 服务长时间运行后的精度问题。#4117
修复了高并发下运行 qwen2.5 vl 的功能问题。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选版本。在此版本中，我们修复了许多问题以提升质量。感谢所有反馈。我们将继续致力于修复问题和性能改进。v0.11.0 官方发布即将到来。请按照官方文档开始使用。

亮点#

CANN 已升级至 8.3.RC2。#4332
Ngram 推测解码方法现已恢复。#4092
通过更新默认捕获大小提升了 aclgraph 的性能。#4205

核心#

加快了 vLLM 启动时间。#4099
Kimi k2 现已支持量化。#4190
修复了 qwen3-next 的一个问题，现在更稳定了。#4025

其他#

修复了纯解码模式的问题。全图模式现在更稳定。#4106 #4282
修复了 DeepSeek V3 系列模型的 allgather 算子问题。#3711
修复了 EPLB 功能的一些问题。#4150 #4334
修复了视觉语言模型在 x86 机器上无法工作的问题。#4285
支持预填充分离代理的 IPv6。请注意，mooncake 连接器暂不支持 IPv6，我们正在处理。#4242
添加检查以确保 EPLB 在量化场景下仅支持 w8a8 方法。#4315
添加检查以确保 FLASHCOMM 功能暂不支持视觉语言模型。预计将在 2025 年第四季度支持。#4222
容器中已安装音频所需的库。#4324

已知问题#

Ray + EP 无法工作，如果使用 Ray 运行 vLLM Ascend，请禁用专家并行。#4123
response_format 参数暂不支持，我们很快会支持。#4175
CPU 绑定功能在多实例场景（例如单节点多 DP）下不工作。我们将在下一个版本中修复。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请按照官方文档开始使用。v0.11.0 将是 vLLM Ascend 的下一个官方版本。我们将在几天内发布。欢迎提供任何反馈以帮助我们改进 v0.11.0。

亮点#

CANN 升级至 8.3.RC1。Torch-npu 升级至 2.7.1。#3945 #3896
默认启用前缀缓存和分块预填充。#3967
现已支持 W4A4 量化。#3427。官方教程请访问此处。

核心#

Qwen3 和 Deepseek V3 系列模型的性能得到提升。
现已支持 Mooncake 分层连接器 #2602。教程请见此处。
现已支持 MTP > 1。#2708
[实验性] 现已支持图模式 FULL_DECODE_ONLY！FULL 模式将在未来几周内推出。#2128
现已支持池化模型，例如 bge-m3。#3171

其他#

重构了 MOE 模块，使其更清晰易懂，并在量化和非量化场景下均提升了性能。
重构了模型注册模块，以便于维护。我们将在 2025 年第四季度移除该模块。#3004
Torchair 已被弃用。一旦 ACL Graph 性能足够好，我们将移除它。截止日期为 2026 年第一季度。
LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。
重构线性模块以支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334。

已知问题#

长时间服务后可能存在内存泄漏和服务卡住的问题。这是 torch-npu 的一个问题，我们将尽快升级并修复。
qwen2.5 VL 的精度不佳。这是 CANN 导致的问题，我们将很快修复。
对于长序列输入场景，有时无响应且 KV 缓存使用率变高。这是调度器的问题，我们正在处理。
Qwen2-audio 默认无法工作，我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为合适值，例如 0.8。
启用专家并行运行 Qwen3-Next 时，请将 HCCL_BUFFSIZE 环境变量设置为合适值，例如 1024。
DeepSeek3.2 使用 aclgraph 时精度不正确。临时解决方案是根据输入的批次大小将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特别候选版本。请按照官方文档开始使用。

亮点#

现已支持 DeepSeek V3.2。#3270
现已支持 Qwen3-vl。#3103

核心#

DeepSeek 现已支持 aclgraph。#2707
MTP 现已支持 aclgraph。#2932
现已支持 EPLB。#2956
现已支持 Mooncake 存储 KV 缓存连接器。#2913
现已支持 CPU 卸载连接器。#1659

其他#

Qwen3-next 现已稳定。#3007
修复了 Qwen3-next 在 v0.10.2 中引入的大量问题。#2964 #2781 #3070 #3113
LoRA 功能现已恢复。#3044
Eagle3 推测解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选版本。请按照官方文档开始使用。

亮点#

新增对 Qwen3-Next 的支持。请注意，此版本不支持专家并行和 MTP 功能。我们将尽快使其可用。请按照官方指南开始使用。#2917
为 aclgraph 添加了量化支持 #2841

核心#

Aclgraph 现已支持 Ray 后端。#2589
MTP 现已支持 token > 1。#2708
Qwen2.5 VL 现已支持量化。#2778
启用异步调度器后性能得到提升。#2783
修复了非 MLA 模型在使用默认调度器时的性能回归问题。#2894

其他#

W8A8 量化的性能得到提升。#2275
MoE 模型的性能得到提升。#2689 #2842
修复了应用推测解码和 aclgraph 时的资源限制错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充中的滑动窗口注意力问题。#2758
新增了 Qwen3 预填充-解码分离的官方文档。#2751
环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 重新生效。#2740
新增了对 deepseek 中 oproj 的改进。设置 oproj_tensor_parallel_size 以启用此功能。#2167
修复了 deepseek 在使用 torchair 时，当设置 graph_batch_sizes 后工作异常的问题。#2760
当 kv_seqlen > 4k 时，避免在 rope 中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 稠密模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1 和 VLLM_ASCEND_ENABLE_FLASHCOMM=1 以启用。#2779
通过预取功能提升了 Qwen3 稠密模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 以启用。#2816
通过更新 rope 算子提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
添加 warm_up_atb 步骤以加速推理。#2823
修复了 MoE 模型的 aclgraph 流错误。#2827

已知问题#

在 P 和 D 的 TP 大小不同时运行预填充解码分离，服务器会挂起。此问题已通过 vLLM commit 修复，但该提交未包含在 v0.10.2 中。您可以选择此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个已知问题，我们正在处理。您可以根据并行配置设置合适的 max_model_len 和 gpu_memory_utilization 值以避免 OOM 错误。
我们注意到，由于 KV 缓存的重构，LoRA 在此版本中无法工作。我们将很快修复。2941
使用 Ascend 调度器运行时，请不要启用带有前缀缓存的分块预填充。性能和精度不佳/不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选版本。请按照官方文档开始使用。

亮点#

通过招商银行添加的自定义内核，LoRA 性能大幅提升。#2325
支持用于 KV 缓存注册和 pull_blocks 风格分离式预填充实现的 Mooncake TransferEngine。#1568
现已支持将自定义算子捕获到 aclgraph 中。#2113

核心#

添加了 MLP 张量并行以提升性能，但请注意这会增加内存使用。#2120
openEuler 已升级至 24.03。#2631
添加了自定义 lmhead 张量并行，以减少内存消耗并提升 TPOT 性能。#2309
Qwen3 MoE/Qwen2.5 现已支持 torchair 图模式。#2403
支持 AscendScheduler 的滑动窗口注意力，从而修复了 Gemma3 的精度问题。#2528

其他#

错误修复：
- 更新了图捕获大小的计算，一定程度上缓解了某些场景下 NPU 流不足的问题。#2511
- 修复了问题并重构了缓存掩码生成逻辑。#2442
- 修复了量化场景下 nz 格式无法工作的问题。#2549
- 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列精度问题。#2457
- 修复了 rope 维度不等于头维度的模型（例如 GLM4.5）的精度问题。#2601
通过大量 PR 提升了性能：
- 移除了 torch.cat 并使用 List[0] 替换。#2153
- 将 gmm 格式转换为 nz。#2474
- 优化了并行策略以减少通信开销。#2198
- 优化了贪婪情况下的拒绝采样器。#2137
一系列重构 PR 以增强代码架构：
- 重构 MLA。#2465
- 重构 torchair fused_moe。#2438
- 重构与 allgather/mc2 相关的 fused_experts。#2369
- 重构 torchair 模型运行器。#2208
- 重构 CI。#2276
参数变更：
- 在 additional_config 中添加了 lmhead_tensor_parallel_size，设置它以启用 lmhead 张量并行。#2309
- 移除了未使用的环境变量 HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT 和 LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448
- 环境变量 VLLM_LLMDD_RPC_PORT 已重命名为 VLLM_ASCEND_LLMDD_RPC_PORT。#2450
- 在环境变量中添加了 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE，用于决定在启用张量并行时是否启用 MLP 优化，此功能在 eager 模式下将获得更好的性能。#2120
- 移除了环境变量中的 MOE_ALL2ALL_BUFFER 和 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612
- 在 additional_config 中添加了 enable_prefetch，用于决定是否启用权重预取。#2465
- 在 additional_config.torchair_graph_config 中添加了 mode，当 torchair 使用 reduce-overhead 模式时，需要设置此参数。#2461
- additional_config 中的 enable_shared_expert_dp 现在默认禁用，建议在使用 deepseek 推理时启用。#2457

已知问题#

滑动窗口注意力目前不支持分块预填充，因此我们只能启用 AscendScheduler 来运行。#2729
启用 MultiStream 时创建 mc2_mask 存在问题，将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴地宣布 vLLM Ascend 最新正式版本发布。此版本包含了许多功能支持、性能改进和错误修复。我们建议用户从 0.7.3 升级到此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中，我们为大规模专家并行场景添加了许多增强功能。建议遵循官方指南。

请注意，本发布说明将列出自上一个正式版本 (v0.7.3) 以来的所有重要更改。

亮点#

高质量、高性能地支持了 DeepSeek V3/R1。MTP 也可以与 DeepSeek 协同工作。请参考多节点教程和大规模专家并行。
Qwen 系列模型现在支持图模式。默认情况下，它在 V1 引擎下运行。请参考 Qwen 教程。
V1 引擎支持分离式预填充。请参考大规模专家并行教程。
支持自动前缀缓存和分块预填充功能。
推测解码功能支持 Ngram 和 MTP 方法。
现已支持 MoE 和稠密模型的 w4a8 量化。请参考量化指南。
V1 引擎支持睡眠模式功能。请参考睡眠模式教程。
新增了动态和静态 EPLB 支持。此功能仍处于实验阶段。

注意#

以下说明特别适用于从上一个正式版本 (v0.7.3) 升级时参考：

从此版本起，不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。
此版本不需要 Mindie Turbo。旧版本的 Mindie Turbo 不兼容，请勿安装。目前所有功能和增强已包含在 vLLM Ascend 中。我们将在未来根据需要重新考虑添加。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请勿忘记升级。

核心#

为 V1 引擎添加了 Ascend 调度器。此调度器与 Ascend 硬件的亲和性更好。
V1 引擎现在支持结构化输出功能。
添加了一批自定义算子以提升性能。

变更#

为 Qwen3-moe 模型提供 EPLB 支持。#2000
修复了 MTP 与预填充解码分离协同工作不佳的问题。#2610 #2554 #2531
修复了几个问题以确保预填充解码分离正常工作。#2538 #2509 #2502
修复了 torchair 模式下 shutil.rmtree 的文件未找到错误。#2506

已知问题#

运行 MoE 模型时，Aclgraph 模式仅支持张量并行。此版本中不支持 DP/EP。
此版本中 V1 引擎不支持流水线并行。
如果在 eager 模式下使用 w4a8 量化，请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免 OOM 错误。
使用某些工具进行的精度测试可能不正确。这不影响实际用户场景。我们将在下一个补丁版本中修复。#2654
我们注意到，在使用预填充解码分离运行 vLLM Ascend 时仍然存在一些问题。例如，可能存在内存泄漏和服务卡住。这是 vLLM 和 vLLM Ascend 的已知问题导致的。我们将在下一个补丁版本中修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第三个候选版本。请按照官方文档开始使用。

核心#

MTP 支持 V1 调度器 #2371
添加 LMhead TP 通信组 #1956
修复了 qwen3 moe 无法与 aclgraph 协同工作的问题 #2478
修复了因过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask IndexError #2314
移除了 chunked_prefill_for_mla #2177
修复问题并重构缓存掩码生成逻辑 #2326
修复了关于 ascend 调度器的配置检查逻辑 #2327
在分离式预填充部署中，取消对 deepseek-mtp 和非 ascend 调度器之间的验证 #2368
修复了在 ray 分布式后端失败的问题 #2306
修复了 ascend 调度器中请求块长度不正确的问题 #2394
修复了 rope 中的头文件包含问题 #2398
修复了 mtp 配置问题 #2412
修复错误信息并适配 attn_metedata 重构 #2402
修复了因配置不匹配和 .kv_cache_bytes 文件缺失导致的 torchair 运行时错误 #2312
将 with_prefill allreduce 从 CPU 移到 NPU #2230

文档#

添加 deepseek 大规模 EP 文档 #2339

已知问题#

在 A2 (910B1) 上，当 "full_cuda_graph": True 时，test_aclgraph.py 失败 #2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选版本。请按照官方文档开始使用。V0 已从此版本中完全移除。

亮点#

分离式预填充现在可与 V1 引擎协同工作。您可以尝试 DeepSeek 模型 #950，按照此教程。
稠密模型和 MoE 模型现在支持 W4A8 量化方法。#2060 #2172

核心#

Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724。#1562 并且 CANN 已升级至 8.2.RC1。#1653 请勿忘记在您的环境中更新或使用最新的镜像。
vLLM Ascend 现可在 Atlas 800I A3 上运行，A3 的镜像将从此版本开始发布。#1582
vLLM Ascend 现已支持带 w8a8 量化的 Kimi-K2、Qwen3-Coder 和 GLM-4.5，请按照此教程尝试。#2162
V1 现在支持流水线并行。#1800
前缀缓存功能现在可与 Ascend 调度器协同工作。#1446
Torchair 图模式现在支持 tp > 4。#1508
MTP 现在支持 torchair 图模式 #2145

其他#

错误修复：
- 修复了 Qwen2-audio 等多模态模型与 Aclgraph 的功能性问题。#1803
- 修复了外部启动场景下的进程组创建错误。#1681
- 修复了引导解码的功能性问题。#2022
- 修复了常见 MoE 模型在 DP 场景下的精度问题。#1856
通过大量 PR 提升了性能：
- 缓存 sin/cos 而不是每层计算。#1890
- 改进共享专家多流并行 #1891
- 在启用 tp 时，实现了预填充阶段 allreduce 和 matmul 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE 为 1 启用此功能。#1926
- 通过减少 All2All 通信优化量化 MoE 性能。#2195
- 在自定义模型中使用 AddRmsNormQuant 算子来优化 Qwen3 的性能 #1806
- 使用组播来避免将解码请求填充到预填充大小 #1555
- LoRA 的性能已得到提升。#1884
一系列重构 PR 以增强代码架构：
- 重构 Torchair 模型运行器 #2205
- 重构 forward_context 和 model_runner_v1 #1979
- 重构 AscendMetaData 注释 #1967
- 重构 torchair 工具 #1892
- 重构 torchair worker #1885
- 注册激活自定义算子，而不是覆盖 forward_oot。#1841
参数变更：
- additional_config 中的 expert_tensor_parallel_size 已被移除，EP 和 TP 现在与 vLLM 保持一致。#1681
- 在环境变量中添加 VLLM_ASCEND_MLA_PA，用于启用 deepseek mla 解码的 mla 分页注意力算子。
- 在环境变量中添加 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE，用于在启用张量并行时启用 MatmulAllReduce 融合内核。此功能在 A2 上受支持，eager 模式将获得更好的性能。
- 在环境变量中添加 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ，用于决定是否启用 moe all2all seq，这在 alltoall 的基础上提供了一个便于扩展的基本框架。
在遵循此 RFC 的一系列 PR 之后，单元测试覆盖率达到了 76.34% #1298
序列并行适用于 Qwen3 MoE。#2209
现已添加中文在线文档。#1870

已知问题#

Aclgraph 目前无法与 DP + EP 协同工作，主要差距在于 Aclgraph 捕获图所需的 NPU 流数量不足。#2229
启用多流的 W8A8 动态量化 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232
在 Qwen3 MoE 中，SP 无法集成到 Aclgraph 中。#2246
MTP 目前不支持 V1 调度器，将在第三季度修复。#2254
在 DP > 1 的情况下运行 MTP 时，由于 vLLM 的某些问题，我们需要禁用指标记录器。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选版本。请按照官方文档开始使用。

亮点#

现已支持 MOE 和稠密模型的 w4a8 量化：#1320 #1910 #1275 #1480
支持动态 EPLB #1943
V1 引擎支持分离式预填充及改进，持续开发和稳定分离式预填充功能，包括单机设置下的性能增强和错误修复：#1953 #1612 #1361 #1746 #1552 #1801 #2083 #1989

模型改进#

DeepSeek DBO 支持与改进：#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复：#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 MoE 支持改进以及围绕图模式和 DP 的错误修复：#1940 #2006 #1832
围绕 rmsnorm/repo/mlp 算子的 Qwen3 性能改进：#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 分块预填充/图模式/多流改进与错误修复：#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
通过 mrope/填充机制改进提升 Qwen2.5 VL：#1261 #1705 #1929 #2007
Ray：修复使用 ray 时的设备错误，添加 initialize_cache 并改进警告信息：#1234 #1501

图模式改进#

修复了 DeepSeek 与 mc2 的问题 #1269
修复了 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题 #1332
修复了 torchair_graph_batch_sizes 的问题 #1570
为 torchair 图模式启用 tp <= 4 的限制 #1404
修复 rope 精度问题 #1887
支持 FusedMoE 中共享专家的多流 #997
为 torchair 图模式的解码过程启用 kvcache_nz #1098
修复在 torchair 场景下的 chunked-prefill，解决 UnboundLocalError：局部变量 'decode_hs_or_q_c' 的问题。#1378
改进 shared experts 在 w8a8 动态量化下的多流性能。#1561
修复在启用 multistream 时的 MoE 错误。#1882
在 EP 场景中将图的批大小向上舍入到 tp_size。#1610
修复在启用数据并行（DP）时的 torchair 错误。#1727
为 torchair_graph_config 添加额外检查。#1675
修复在 torchair + chunk-prefill 场景下的 rope（位置编码）错误。#1693
当 chunked_prefill 为 true 时修复 torchair_graph 的错误。#1748
改进 prefill 优化以支持 torchair graph 模式。#2090
修复数据并行（DP）场景中的 rank 设置问题。#1247
重置所有未使用的位置以防止越界，从而解决 GatherV3 的错误。#1397
在 ModelRunner 中移除重复的多模态代码。#1393
修复 block table 的形状以解决准确率问题。#1297
在受限场景下实现原始全图（primal full graph）。#1503
在 Full Graph 中恢复 paged attention 内核以提升性能。#1677
修复在极端 --gpu-memory-utilization 情况下 DeepSeek 的 OOM 问题。#1829
在启用 TorchAir 时关闭 aclgraph。#2154

算子改进#

新增自定义 AscendC 内核 vocabparallelembedding。#796
修复 rope 正弦/余弦缓存错误。#1267
重构 AscendFusedMoE（#1229）。#1264
在采样器中使用融合操作 npu_top_k_top_p。#1920

核心：#

将 CANN 升级到 8.2.rc1。#2036
将 torch-npu 升级到 2.5.1.post1。#2135
将 Python 升级到 3.11。#2136
在 mindie_turbo 中禁用量化。#1749
修复 v0 规范的解码。#1323
仅在使用 V0 规范解码时直接启用 ACL_OP_INIT_MODE=1。#1271
重构 forward_context 和 model_runner_v1。#1422
修复采样参数。#1423
新增开关以在权重中启用 NZ 布局，并为 GMM 启用 NZ。#1409
修复 ascend_forward_context 中的错误。#1449 #1554 #1598
处理 PrefillCacheHit 状态以修复前缀缓存准确率错误。#1492
修复加载权重错误并新增端到端测试用例。#1651
优化 deepseek 中 rope 相关索引选择的数量。#1614
新增 mc2 掩码。#1642
修复静态 EPLB 的 log2phy 条件并改进单元测试。#1667 #1896 #2003
为 prefill 添加了 chunk mc2。#1703
修复 mc2 操作中 GroupCoordinator 的 bug。#1711
修复无法识别实际量化类型的故障。#1721
修复当 tp_size == 1 时 DeepSeek 的 bug。#1755
在 prefill 节点中添加对 delay-free blocks 的支持。#1691
为未量化的强化学习（RL）训练优化 MoE 的 alltoallv 通信，并在 alltoallv 中支持 DPO。#1547
适配 dispatchV2 接口。#1822
修复在长输出下 disaggregate prefill 挂起的问题。#1807
在 engine v0 时修复 flashcomm_v1。#1859
修复某些情况下 ep_group 与 word_size 不相等的问题。#1862
修复 wheel 的 glibc 版本不兼容问题。#1808
修复 mc2 进程组，解决 self.cpu_group 为 None 的问题。#1831
将 vllm 版本固定为 v0.9.1 以使 mypy 检查通过。#1904
为 MoE 应用 npu_moe_gating_top_k_softmax 以提升性能。#1902
修复 engine v0 时 path_decorator 的错误。#1919
在 disaggregated-prefill 场景下避免执行 CPU all_reduce。#1644
在 decode MoE 中添加 super kernel。#1916
【Prefill 性能】并行策略优化（以显存换取速度）。#1802
在 shared_experts.down_proj 中移除不必要的 reduce_results 访问。#2016
通过向量化优化 greedy reject 采样器。#2002
使单机上可以运行多个 P 与 D（进程/设备）。#1936
当 tp > 1 且启用 multistream_moe 时，修复 deepseek 模型中 shared 与 routed experts 之间的形状冲突。#2075
新增 CPU 绑定支持。#2031
新增 with_prefill CPU allreduce 以处理 D 节点的重计算。#2129
新增 D2H 与 initRoutingQuantV2 以提升 prefill 性能。#2038

文档#

提供用于执行耗时分析的端到端指南。#1113
为 CANN 安装包下载 URL 添加 Referer 头。#1192
新增重装说明文档。#1370
更新 Disaggregate prefill 的 README。#1379
为 kv cache register 风格添加 Disaggregate prefill。#1296
修复 examples/disaggregate_prefill_v1/README.md 中的错误与不规范部分。#1965

已知问题#

对于启用 full_cuda_graph 的特定硬件类型，Full graph 模式尚不可用。#2182
当启用 EP 时，Qwen3 MoE 的 aclgraph 模式在 tp 模式下因 bincount 错误而失败。#2226
如 v0.9.1rc1 发布说明中所述，Atlas 300I 系列的支持将不会被包含在内。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起，V1 引擎将默认启用，不再需要设置 VLLM_USE_V1=1。此外，该版本也是最后一个支持 V0 引擎的版本，V0 相关代码将在未来被清理。

亮点#

Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359。
Atlas 300I 系列的性能已经提升。 #1591
aclgraph 模式现在可以与 Moe 模型一起使用。目前，仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

Ascend PyTorch 适配器（torch_npu）已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347
GatherV3 错误已通过 aclgraph 模式修复。#1416
W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560
修复了使用并行参数部署模型时的准确性问题。#1678
预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

官方文档已更新，以提升阅读体验。例如，增加了更多部署教程，用户/开发者文档已更新。更多指南即将推出。
修复 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题。#1331
新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 Deepseek V3/R1 模型的 fused allgather-experts 内核。默认值为 0。#1335
新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION，用于提升 topk-topp 采样的性能。该变量默认值为 0，未来我们会考虑默认启用此选项#1732。
已修复了一批与数据并行相关的 bug #1273 #1322 #1275 #1478
DeepSeek 的性能已得到提升。#1194 #1395 #1380
Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
支持使用 prompt logprobs 恢复 V1 的 ceval 准确率 #1483

已知问题#

修复了可能导致CPU内存泄漏的问题。 #691 #712

New Contributors#

添加每晚持续集成 #668
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
LLama4 现在可以使用了。#740
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加 Qwen3-0.6B 测试 #717
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

Experimental#

Atlas 300I series is experimental supported in this release (Functional test passed with Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B). #1333
支持 EAGLE-3 进行推测式解码。#1032

本版本对 Atlas 300I 系列提供了实验性支持。#1333 经过慎重考虑，鉴于 v0.9.1 版本发布的质量要求以及 Atlas 300I 系列性能优化的快速迭代，该功能不会被包含在 v0.9.1-dev 分支中。我们将在 0.9.2rc1 及之后的版本中进一步完善该功能。

核心#

Ascend PyTorch 适配器（torch_npu）已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235
支持Atlas 300I系列的容器镜像。你可以从quay.io获取。
修复按 token 填充机制以支持多卡图模式。 #1300
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

其他改进#

为MLA初步支持分块预填充。 #1172
已新增一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
通过使用 TorchAir 图对 DeepSeek 进行了性能提升。#1098, #1131
支持 AscendScheduler 的预测性解码功能。#943
提升 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796
修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置错误 #884
DeepSeek 现已可以与 MC2（计算与通信融合）正常工作。#1268
修复了带有静态 EPLB 特性时 log2phy 为 NoneType 的 bug。#1186
启用 DBO 后，DeepSeek 的性能得到提升。#997，#1135
重构 AscendFusedMoE #1229
新增初始用户故事页面（包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack）#1224
添加单元测试框架 #1201

已知问题#

在某些情况下，当启用 aclgraph 时，vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在解决此问题，并将在下一个版本中修复。#1038
前缀缓存功能在未启用分块预填充的情况下无法与 Ascend 调度器一同工作。此问题将在下一个版本中修复。#1350

完整更新日志#

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

New Contributors#

添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加单元测试框架 #1201

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本，而不是 v0.9.0rc1。

亮点#

修复当以非可编辑方式安装 vllm-ascend 时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开始使用。从此版本起，推荐使用 V1 引擎。V0 引擎的代码已被冻结，不再维护。如需启用 V1 引擎，请设置环境变量 VLLM_USE_V1=1。

亮点#

DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789
Qwen 系列模型现在支持图模式。默认情况下，它在 V1 引擎下运行。请注意，本次发布中，仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中进一步提升其稳定性并推广至更广泛的场景。如果你遇到任何问题，请随时在 GitHub 上提交 issue，并在初始化模型时通过设置 enforce_eager=True 临时切换回 eager 模式。

核心#

多步调度器的性能得到了提升。感谢招商银行的贡献。#814
V1 引擎现在支持 LoRA、多 LoRA 以及动态服务。感谢招商银行的贡献。#893
前缀缓存和分块预填充功能现已可用 #782 #844
Spec 解码和 MTP 功能现在已经支持 V1 引擎。#874 #890
DP 功能现在可以与 DeepSeek 一起使用。#1012
输入嵌入特性现在已支持 V0 引擎。#916
休眠模式功能现在已支持 V1 引擎。#1084

模型#

Qwen2.5 VL 现在可以与 V1 引擎协同工作。#736
LLama4 现在可以使用了。#740
新增了一种名为双批次重叠（dual-batch overlap，DBO）的 DeepSeek 模型。请设置 VLLM_ASCEND_ENABLE_DBO=1 以启用。 #941

其他#

在线服务现已支持Ascend量化。#877
已修复一批关于图模式和moe模型的bug。#773 #771 #774 #816 #817 #819 #912 #897 #961 #958 #913 #905
一批性能改进的 PR 已被合并。#784 #803 #966 #839 #970 #947 #987 #1085
从本版本开始，将同时发布二进制 wheel 包。#775
贡献者文档站点已添加

已知问题#

在某些情况下，启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题，并将在下一个版本中修复。
多节点数据并行在此版本中无法使用。这是 vllm 中已知的问题，并已在主分支中修复。 #18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个补丁发布。请按照官方文档开始使用。本次更新包括以下更改：

亮点#

现在已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已经过充分测试，你可以立即试用。推荐使用 Mindie Turbo 以提升 Qwen3 的性能。#903 #915
新增了一个性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能。内容包括操作系统配置、库优化、部署指南等。 #878 文档链接

漏洞修复#

Qwen2.5-VL 现在已支持 RLHF 场景。#928
用户现在可以直接从在线权重启动模型。例如，可以直接从 huggingface 或 modelscope 获取。#858 #918
无意义的日志信息 UserWorkspaceSize0 已被清理。#911
Failed to import vllm_ascend_C 的日志级别已从 error 更改为 warning。#956
DeepSeek MLA 现已在 V1 引擎中支持分块预填充。请注意，0.7.3 版本中的 V1 引擎仅为实验性，仅供测试使用。#849 #936

文档#

基准文档已针对 Qwen2.5 和 Qwen2.5-VL 更新 #792
添加说明，明确只有 "modelscope<1.23.0" 能与 0.7.3 一起使用。#954

v0.7.3 - 2025.05.08#

🎉 你好，世界！

我们很高兴地宣布 vllm-ascend 0.7.3 版本正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已充分测试和验证。我们鼓励您试用并反馈意见。如有需要，未来我们将发布修复版本。请参阅官方文档开启您的体验之旅。

亮点#

本次发布包含了所有在之前候选版本中加入的功能（v0.7.1rc1、v0.7.3rc1、v0.7.3rc2）。所有功能都经过了全面测试和验证。请访问官方文档获取详细的功能和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充和自动前缀缓存功能。您现在可以启用这些功能了。
升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户现在无需手动安装 torch-npu，2.5.1 版本的 torch-npu 会被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 以提升 DeepSeek V3/R1、Qwen 2 系列的性能。#708

核心#

现在已经支持 LoRA、多LoRA 和动态服务。下一个版本中性能将会提升。请参阅官方文档以获取更多用法信息。感谢招商银行的贡献。#700

模型#

Qwen2 vl 和 Qwen2.5 vl 的性能得到了提升。 #702
apply_penalties 和 topKtopP 操作的性能得到了提升。 #525

其他#

修复了可能导致CPU内存泄漏的问题。 #691 #712
新增了一个环境变量 SOC_VERSION。如果在启用自定义算子时构建过程中遇到 soc 检测错误，请将 SOC_VERSION 设置为合适的值。#606
openEuler 容器镜像已支持 v0.7.3-openeuler 标签。#665
前缀缓存功能现在已在 V1 引擎上工作。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开始使用。现在，您可以通过设置环境变量 VLLM_USE_V1=1 启用 V1 引擎。关于 vLLM Ascend 的特性支持情况，请参见这里。

亮点#

将 CANN 版本升级到 8.1.RC1，以支持在启用 V1 时的分块预填充和自动前缀缓存（--enable_prefix_caching）#747
优化 Qwen2 VL 和 Qwen 2.5 VL #701
改进了 Deepseek V3 的 eager 模式和图模式性能，现在你可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。#598 #719

核心#

将 vLLM 升级到 0.8.5.post1 #715
修复在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题 #682
适配由 modelslim 生成的新量化模型 #719
基于 llm_datadist 的 P2P 分布式 Prefill 初步支持 #694
使用 /vllm-workspace 作为代码路径，并在容器镜像中包含 .git ，以修复在 /workspace 下启动 vllm 时的问题 #726
优化NPU内存使用，以使 DeepSeek R1 W8A8 32K 模型长度能够运行。#728
修复 setup.py 中的 PYTHON_INCLUDE_PATH 拼写错误 #762

其他#

添加 Qwen3-0.6B 测试 #717
添加每晚持续集成 #668
添加准确性测试报告 #542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend 的 v0.8.4 第二个候选版本。请按照官方文档开始使用。本版本包含了一些实验性功能，如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使这些功能更加稳定。

亮点#

现在已支持 Qwen3 和 Qwen3MOE。请按照官方文档运行快速演示。#709
现在支持 Ascend W8A8 量化方法。请参考官方文档示例。欢迎提供任何反馈。#580
DeepSeek V3/R1 现在已经支持 DP、TP 和 MTP。请注意，目前仍处于实验阶段。如果遇到任何问题，请告知我们。 #429 #585 #626 #636 #671

核心#

ACLGraph 特性现在已被 V1 引擎支持。它默认是禁用的，因为该特性依赖于 CANN 8.1 版本。我们将在下一个版本中默认启用此特性 #426。
升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖 dev 版本的 torch-npu，用户无需手动安装 torch-npu。torch-npu 的 2.5.1 版本将会自动安装。#661

其他#

MiniCPM 模型现在可以使用了。#645
openEuler 容器镜像已支持 v0.8.4-openeuler 标签，并且 openEuler 操作系统默认启用了自定义 Ops 构建。#689
修复 ModuleNotFoundError 错误以使 Lora 正常工作 #600
添加了“使用 EvalScope 评估”文档 #611
新增了一个 VLLM_VERSION 环境变量，使 vLLM 版本可以配置，帮助开发者在本地手动修改 vLLM 代码后，设置正确的 vLLM 版本。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开始使用。本版本起，vllm-ascend 将跟随 vllm 的最新版本并每两周发布一次。例如，如果 vllm 在接下来的两周内发布 v0.8.5，vllm-ascend 将发布 v0.8.5rc1，而不是 v0.8.4rc2。详细信息请参考官方文档。

亮点#

本版本包含了对 vLLM V1 引擎的实验性支持。你可以访问官方指南获取更多详细信息。默认情况下，如果 V1 不可用，vLLM 会自动回退到 V0。如果你想强制使用 V1，请设置 VLLM_USE_V1=1 环境变量。
现在已支持 LoRA、Multi-LoRA 和动态服务。性能将在下一个版本中得到提升。请参阅官方文档获取更多使用信息。感谢招商银行的贡献。#521。
已支持休眠模式功能。目前它只在V0引擎上有效，V1引擎的支持即将到来。#513

核心#

为V1引擎新增了Ascend调度器。该调度器与Ascend硬件更加适配。未来还将添加更多调度策略。 #543
支持分离式预填充（Disaggregated Prefill）功能。目前仅支持1P1D，NPND正在由vllm团队设计中。一旦vLLM支持，vllm-ascend将会支持。请按照官方指南使用。#432
Spec 解码功能现在可以使用。目前它只在 V0 引擎上工作，对 V1 引擎的支持即将到来。#500
结构化输出功能现在已在V1引擎上生效。目前仅支持xgrammar后端，使用guidance后端可能会出现一些错误。#555

其他#

新增了一个通信器 pyhccl。它用于直接调用 CANN HCCL 库，而不是使用 torch.distribute。将在下一个版本中添加更多用法 #503。
自定义算子的构建默认是启用的。你应该先安装如 gcc、cmake 等包以便从源码编译 vllm-ascend。如果不需要自定义算子的编译，可以设置环境变量 COMPILE_CUSTOM_KERNELS=0 来禁用编译。 #466
自定义算子 rotay embedding 现在已默认启用，以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请根据官方文档开始使用。

容器快速入门： https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

新增了Ascend自定义算子框架。开发者现在可以使用AscendC编写自定义算子。新增了一个示例算子 rotary_embedding 。更多教程即将发布。安装vllm-ascend时，自定义算子的编译默认是关闭的。可通过设置 COMPILE_CUSTOM_KERNELS=1 启用。#371
本版本对 V1 引擎提供了基础支持，全面支持将在 0.8.X 版本中完成。如果您遇到任何问题或有 V1 引擎的相关需求，请在这里告诉我们。#376
前缀缓存功能现在已经可用。你可以通过设置 enable_prefix_caching=True 来启用该功能。#282

核心#

将 torch_npu 版本升级到 dev20250320.3 以提升精度，修复 !!! 输出问题。#406

模型#

通过优化 patch embedding（Conv3D），Qwen2-vl 的性能得到了提升。#398

其他#

修复了一个错误，以确保多步调度器功能正常工作。#349
修复了一个 bug，使前缀缓存功能能够以正确的准确性运行。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好，世界！这是 vllm-ascend v0.7.3 的第一个候选发布版本。请按照官方文档开始你的旅程。

容器快速入门： https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

DeepSeek V3/R1 现在运行良好。请阅读官方指南开始！#242
已支持猜测性解码功能。#252
已支持多步调度器功能。#300

核心#

将 torch_npu 版本升级到 dev20250308.3，以提升 _exponential 的精度
新增了对池化模型的初步支持。现在支持 Bert 基础模型，如 BAAI/bge-base-en-v1.5 和 BAAI/bge-reranker-v2-m3。 #229

模型#

Qwen2-VL 的性能得到了提升。#241
MiniCPM 现在已被支持 #164

其他#

为 DeepSeek V3/R1 支持 MTP（多标记预测） #236
[文档] 增加了更多的模型教程，包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参见官方文档。
在 vLLM v0.7.3 上锁定 modelscope 版本低于 1.23.0，以解决：https://github.com/vllm-project/vllm/pull/13807

已知问题#

在某些情况下，特别是当输入或输出非常长时，输出的准确性可能会有误。我们正在解决这个问题。将在下一个版本中修复。
改进并减少了模型输出中的乱码问题。但如果你仍然遇到该问题，请尝试更改生成配置的参数，例如 temperature，然后再试一次。下面还列出了一个已知问题。欢迎提供任何反馈。#277

v0.7.1rc1 - 2025.02.19#

🎉 你好，世界！

我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选版本发布。

vLLM Ascend 插件（vllm-ascend）是一个由社区维护的硬件插件，用于在 Ascend NPU 上运行 vLLM。通过此版本，用户现在可以在 Ascend NPU 上享受到 vLLM 的最新功能和改进。

请参阅官方文档开始您的体验之旅。请注意，这是一个候选发布版本，可能会有一些漏洞或问题。我们非常欢迎您在这里提交反馈和建议。

亮点#

在 vLLM 上初步支持 Ascend NPU。#3
现在已支持 DeepSeek。 #88 #68
Qwen、Llama 系列及其他流行的模型也受支持，更多详情可参见这里。

核心#

新增了 Ascend 量化配置选项，具体实现即将推出。#7 #73
添加 silu_and_mul 和 rope 操作，并将混合操作加入到 attention 层。 #18

其他#

[CI] 启用 Ascend CI，主动监测并提升 vLLM 在 Ascend 上的质量。#3
[Docker] 添加 vllm-ascend 容器镜像 #64
[文档] 添加了一个在线文档 #55

已知问题#

此版本依赖于尚未发布的 torch_npu 版本。该版本已集成在官方容器镜像中。如果您使用的是非容器环境，请手动安装。
在运行 vllm-ascend 时，会显示类似 No platform detected, vLLM is running on UnspecifiedPlatform 或 Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'") 的日志。这实际上不会影响任何功能和性能，你可以直接忽略它。这个问题已在此 PR 中修复，并很快会在 v0.7.3 版本中包含。
在运行 vllm-ascend 时，会显示类似 # CPU blocks: 35064, # CPU blocks: 2730 的日志，实际应该为 # NPU blocks:。这实际上不会影响任何功能和性能，你可以忽略它。该问题已在这个 PR 中修复，并将在 v0.7.3 版本中包含。

发布说明

目录

发布说明#

v0.11.0 - 2025.12.16#

亮点#

其他#

弃用声明#

升级须知#

已知问题#

v0.11.0rc3 - 2025.12.03#

亮点#

其他#

v0.11.0rc2 - 2025.11.21#

亮点#

核心#

其他#

已知问题#

v0.11.0rc1 - 2025.11.10#

亮点#

核心#

其他#

已知问题#

v0.11.0rc0 - 2025.09.30#

亮点#

核心#

其他#

v0.10.2rc1 - 2025.09.16#

亮点#

核心#

其他#

已知问题#

v0.10.1rc1 - 2025.09.04#

亮点#

核心#

其他#

已知问题#

v0.9.1 - 2025.09.03#

亮点#

注意#

核心#

变更#

已知问题#

v0.9.1rc3 - 2025.08.22#

核心#

文档#

已知问题#

v0.10.0rc1 - 2025.08.07#

亮点#

核心#

其他#

已知问题#

v0.9.1rc2 - 2025.08.04#

亮点#

模型改进#

图模式改进#

算子改进#

核心：#

文档#

已知问题#

v0.9.2rc1 - 2025.07.11#

亮点#

核心#

其他#

已知问题#

New Contributors#

v0.9.1rc1 - 2025.06.22#

Experimental#

核心#

其他改进#

已知问题#

完整更新日志#

New Contributors#

v0.9.0rc2 - 2025.06.10#

亮点#

v0.9.0rc1 - 2025.06.09#

亮点#

核心#

模型#

其他#

已知问题#