发布说明#

v0.11.0 - 2025.12.16#

我们很高兴地宣布 vLLM Ascend v0.11.0 版本正式发布。这是 v0.11.0 的官方版本。请按照官方文档开始使用。我们将在未来根据需要发布后续版本。本发布说明仅包含自 v0.11.0rc3 以来的重要更改和说明。

亮点#

  • 提升了 deepseek 3/3.1 的性能。#3995

  • 修复了 qwen3-vl 的精度问题。#4811

  • 提升了采样性能。#4153

  • Eagle3 现已恢复支持。#4721

其他#

  • 提升了 kimi-k2 的性能。#4555

  • 修复了 deepseek3.2-exp 的量化问题。#4797

  • 修复了高并发下 qwen3-vl-moe 的问题。#4658

  • 修复了预填充解码分离场景下的精度问题。#4437

  • 修复了 EPLB 的一些问题。#4576 #4777

  • 修复了 openEuler Docker 镜像的版本兼容性问题。#4745

弃用声明#

  • LLMdatadist 连接器已被弃用,将在 v0.12.0rc1 中移除

  • Torchair 图模式已被弃用,将在 v0.12.0rc1 中移除

  • Ascend 调度器已被弃用,将在 v0.12.0rc1 中移除

升级须知#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包被推送至 pypi 镜像站,因此难以自动添加依赖,请自行安装。

  • CANN 已升级至 8.3.rc2。

已知问题#

  • Qwen3-Next 在此版本中不支持专家并行和 MTP 功能。如果输入过长,可能会导致 OOM。我们将在下一个版本中改进。

  • Deepseek 3.2 在此版本中仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。

  • Qwen2-audio 默认情况下无法工作。临时解决方案是将 --gpu-memory-utilization 设置为合适值,例如 0.8。

  • 如果在同一节点上运行多个 vLLM 实例,CPU 绑定功能将不起作用。

v0.11.0rc3 - 2025.12.03#

这是 vLLM Ascend v0.11.0 的第三个候选版本。出于质量考虑,我们在正式发布前发布了新的 rc。感谢所有反馈。请按照官方文档开始使用。

亮点#

  • torch-npu 已升级至 2.7.1.post1。请注意,该软件包被推送至 pypi 镜像站,因此难以自动添加依赖,请自行安装。

  • 禁用 NZ 权重加载器以加速稠密模型。请注意,这是一个临时解决方案。如果您发现性能变差,请告知我们。我们将持续改进。#4495

  • mooncake 现已安装在官方 Docker 镜像中。您可以在容器中直接使用。#4506

其他#

  • 修复了 MoE 模型的 OOM 问题。#4367

  • 修复了多模态模型在 DP>1 运行时挂起的问题。#4393

  • 修复了 EPLB 的一些问题。#4416

  • 修复了 mtp>1 + lm_head_tp>1 场景的问题。#4360

  • 修复了 vLLM 服务长时间运行后的精度问题。#4117

  • 修复了高并发下运行 qwen2.5 vl 的功能问题。#4553

v0.11.0rc2 - 2025.11.21#

这是 vLLM Ascend v0.11.0 的第二个候选版本。在此版本中,我们修复了许多问题以提升质量。感谢所有反馈。我们将继续致力于修复问题和性能改进。v0.11.0 官方发布即将到来。请按照官方文档开始使用。

亮点#

  • CANN 已升级至 8.3.RC2。#4332

  • Ngram 推测解码方法现已恢复。#4092

  • 通过更新默认捕获大小提升了 aclgraph 的性能。#4205

核心#

  • 加快了 vLLM 启动时间。#4099

  • Kimi k2 现已支持量化。#4190

  • 修复了 qwen3-next 的一个问题,现在更稳定了。#4025

其他#

  • 修复了纯解码模式的问题。全图模式现在更稳定。#4106 #4282

  • 修复了 DeepSeek V3 系列模型的 allgather 算子问题。#3711

  • 修复了 EPLB 功能的一些问题。#4150 #4334

  • 修复了视觉语言模型在 x86 机器上无法工作的问题。#4285

  • 支持预填充分离代理的 IPv6。请注意,mooncake 连接器暂不支持 IPv6,我们正在处理。#4242

  • 添加检查以确保 EPLB 在量化场景下仅支持 w8a8 方法。#4315

  • 添加检查以确保 FLASHCOMM 功能暂不支持视觉语言模型。预计将在 2025 年第四季度支持。#4222

  • 容器中已安装音频所需的库。#4324

已知问题#

  • Ray + EP 无法工作,如果使用 Ray 运行 vLLM Ascend,请禁用专家并行。#4123

  • response_format 参数暂不支持,我们很快会支持。#4175

  • CPU 绑定功能在多实例场景(例如单节点多 DP)下不工作。我们将在下一个版本中修复。

v0.11.0rc1 - 2025.11.10#

这是 vLLM Ascend v0.11.0 的第一个候选版本。请按照官方文档开始使用。v0.11.0 将是 vLLM Ascend 的下一个官方版本。我们将在几天内发布。欢迎提供任何反馈以帮助我们改进 v0.11.0。

亮点#

  • CANN 升级至 8.3.RC1。Torch-npu 升级至 2.7.1。#3945 #3896

  • 默认启用前缀缓存和分块预填充。#3967

  • 现已支持 W4A4 量化。#3427。官方教程请访问此处

核心#

  • Qwen3 和 Deepseek V3 系列模型的性能得到提升。

  • 现已支持 Mooncake 分层连接器 #2602。教程请见此处

  • 现已支持 MTP > 1。#2708

  • [实验性] 现已支持图模式 FULL_DECODE_ONLYFULL 模式将在未来几周内推出。#2128

  • 现已支持池化模型,例如 bge-m3。#3171

其他#

  • 重构了 MOE 模块,使其更清晰易懂,并在量化和非量化场景下均提升了性能。

  • 重构了模型注册模块,以便于维护。我们将在 2025 年第四季度移除该模块。#3004

  • Torchair 已被弃用。一旦 ACL Graph 性能足够好,我们将移除它。截止日期为 2026 年第一季度。

  • LLMDatadist KV 连接器已被弃用。我们将在 2026 年第一季度移除它。

  • 重构线性模块以支持论文 flashcomm 中的 flashcomm1 和 flashcomm2 特性 #3004 #3334

已知问题#

  • 长时间服务后可能存在内存泄漏和服务卡住的问题。这是 torch-npu 的一个问题,我们将尽快升级并修复。

  • qwen2.5 VL 的精度不佳。这是 CANN 导致的问题,我们将很快修复。

  • 对于长序列输入场景,有时无响应且 KV 缓存使用率变高。这是调度器的问题,我们正在处理。

  • Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将 --gpu-memory-utilization 设置为合适值,例如 0.8。

  • 启用专家并行运行 Qwen3-Next 时,请将 HCCL_BUFFSIZE 环境变量设置为合适值,例如 1024。

  • DeepSeek3.2 使用 aclgraph 时精度不正确。临时解决方案是根据输入的批次大小将 cudagraph_capture_sizes 设置为合适的值。

v0.11.0rc0 - 2025.09.30#

这是 vLLM Ascend v0.11.0 的特别候选版本。请按照官方文档开始使用。

亮点#

  • 现已支持 DeepSeek V3.2。#3270

  • 现已支持 Qwen3-vl。#3103

核心#

  • DeepSeek 现已支持 aclgraph。#2707

  • MTP 现已支持 aclgraph。#2932

  • 现已支持 EPLB。#2956

  • 现已支持 Mooncake 存储 KV 缓存连接器。#2913

  • 现已支持 CPU 卸载连接器。#1659

其他#

  • Qwen3-next 现已稳定。#3007

  • 修复了 Qwen3-next 在 v0.10.2 中引入的大量问题。#2964 #2781 #3070 #3113

  • LoRA 功能现已恢复。#3044

  • Eagle3 推测解码方法现已恢复。#2949

v0.10.2rc1 - 2025.09.16#

这是 vLLM Ascend v0.10.2 的第一个候选版本。请按照官方文档开始使用。

亮点#

  • 新增对 Qwen3-Next 的支持。请注意,此版本不支持专家并行和 MTP 功能。我们将尽快使其可用。请按照官方指南开始使用。#2917

  • 为 aclgraph 添加了量化支持 #2841

核心#

  • Aclgraph 现已支持 Ray 后端。#2589

  • MTP 现已支持 token > 1。#2708

  • Qwen2.5 VL 现已支持量化。#2778

  • 启用异步调度器后性能得到提升。#2783

  • 修复了非 MLA 模型在使用默认调度器时的性能回归问题。#2894

其他#

  • W8A8 量化的性能得到提升。#2275

  • MoE 模型的性能得到提升。#2689 #2842

  • 修复了应用推测解码和 aclgraph 时的资源限制错误。#2472

  • 修复了 Docker 镜像中的 git 配置错误。#2746

  • 修复了预填充中的滑动窗口注意力问题。#2758

  • 新增了 Qwen3 预填充-解码分离的官方文档。#2751

  • 环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP 重新生效。#2740

  • 新增了对 deepseek 中 oproj 的改进。设置 oproj_tensor_parallel_size 以启用此功能。#2167

  • 修复了 deepseek 在使用 torchair 时,当设置 graph_batch_sizes 后工作异常的问题。#2760

  • 当 kv_seqlen > 4k 时,避免在 rope 中重复生成 sin_cos_cache。#2744

  • 通过 flashcomm_v1 提升了 Qwen3 稠密模型的性能。设置 VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1VLLM_ASCEND_ENABLE_FLASHCOMM=1 以启用。#2779

  • 通过预取功能提升了 Qwen3 稠密模型的性能。设置 VLLM_ASCEND_ENABLE_PREFETCH_MLP=1 以启用。#2816

  • 通过更新 rope 算子提升了 Qwen3 MoE 模型的性能。#2571

  • 修复了 RLHF 场景下的权重加载错误。#2756

  • 添加 warm_up_atb 步骤以加速推理。#2823

  • 修复了 MoE 模型的 aclgraph 流错误。#2827

已知问题#

  • 在 P 和 D 的 TP 大小不同时运行预填充解码分离,服务器会挂起。此问题已通过 vLLM commit 修复,但该提交未包含在 v0.10.2 中。您可以选择此提交来修复该问题。

  • Qwen3-Next 的 HBM 使用率高于预期。这是一个已知问题,我们正在处理。您可以根据并行配置设置合适的 max_model_lengpu_memory_utilization 值以避免 OOM 错误。

  • 我们注意到,由于 KV 缓存的重构,LoRA 在此版本中无法工作。我们将很快修复。2941

  • 使用 Ascend 调度器运行时,请不要启用带有前缀缓存的分块预填充。性能和精度不佳/不正确。#2943

v0.10.1rc1 - 2025.09.04#

这是 vLLM Ascend v0.10.1 的第一个候选版本。请按照官方文档开始使用。

亮点#

  • 通过招商银行添加的自定义内核,LoRA 性能大幅提升。#2325

  • 支持用于 KV 缓存注册和 pull_blocks 风格分离式预填充实现的 Mooncake TransferEngine。#1568

  • 现已支持将自定义算子捕获到 aclgraph 中。#2113

核心#

  • 添加了 MLP 张量并行以提升性能,但请注意这会增加内存使用。#2120

  • openEuler 已升级至 24.03。#2631

  • 添加了自定义 lmhead 张量并行,以减少内存消耗并提升 TPOT 性能。#2309

  • Qwen3 MoE/Qwen2.5 现已支持 torchair 图模式。#2403

  • 支持 AscendScheduler 的滑动窗口注意力,从而修复了 Gemma3 的精度问题。#2528

其他#

  • 错误修复:

    • 更新了图捕获大小的计算,一定程度上缓解了某些场景下 NPU 流不足的问题。#2511

    • 修复了问题并重构了缓存掩码生成逻辑。#2442

    • 修复了量化场景下 nz 格式无法工作的问题。#2549

    • 修复了因默认启用 enable_shared_pert_dp 导致的 Qwen 系列精度问题。#2457

    • 修复了 rope 维度不等于头维度的模型(例如 GLM4.5)的精度问题。#2601

  • 通过大量 PR 提升了性能:

    • 移除了 torch.cat 并使用 List[0] 替换。#2153

    • 将 gmm 格式转换为 nz。#2474

    • 优化了并行策略以减少通信开销。#2198

    • 优化了贪婪情况下的拒绝采样器。#2137

  • 一系列重构 PR 以增强代码架构:

    • 重构 MLA。#2465

    • 重构 torchair fused_moe。#2438

    • 重构与 allgather/mc2 相关的 fused_experts。#2369

    • 重构 torchair 模型运行器。#2208

    • 重构 CI。#2276

  • 参数变更:

    • additional_config 中添加了 lmhead_tensor_parallel_size,设置它以启用 lmhead 张量并行。#2309

    • 移除了未使用的环境变量 HCCN_PATHPROMPT_DEVICE_IDDECODE_DEVICE_IDLLMDATADIST_COMM_PORTLLMDATADIST_SYNC_CACHE_WAIT_TIME#2448

    • 环境变量 VLLM_LLMDD_RPC_PORT 已重命名为 VLLM_ASCEND_LLMDD_RPC_PORT#2450

    • 在环境变量中添加了 VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于决定在启用张量并行时是否启用 MLP 优化,此功能在 eager 模式下将获得更好的性能。#2120

    • 移除了环境变量中的 MOE_ALL2ALL_BUFFERVLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ#2612

    • additional_config 中添加了 enable_prefetch,用于决定是否启用权重预取。#2465

    • additional_config.torchair_graph_config 中添加了 mode,当 torchair 使用 reduce-overhead 模式时,需要设置此参数。#2461

    • additional_config 中的 enable_shared_expert_dp 现在默认禁用,建议在使用 deepseek 推理时启用。#2457

已知问题#

  • 滑动窗口注意力目前不支持分块预填充,因此我们只能启用 AscendScheduler 来运行。#2729

  • 启用 MultiStream 时创建 mc2_mask 存在问题,将在下一个版本中修复。#2681

v0.9.1 - 2025.09.03#

我们很高兴地宣布 vLLM Ascend 最新正式版本发布。此版本包含了许多功能支持、性能改进和错误修复。我们建议用户从 0.7.3 升级到此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。

在此版本中,我们为大规模专家并行场景添加了许多增强功能。建议遵循官方指南

请注意,本发布说明将列出自上一个正式版本 (v0.7.3) 以来的所有重要更改。

亮点#

  • 高质量、高性能地支持了 DeepSeek V3/R1。MTP 也可以与 DeepSeek 协同工作。请参考多节点教程大规模专家并行

  • Qwen 系列模型现在支持图模式。默认情况下,它在 V1 引擎下运行。请参考 Qwen 教程

  • V1 引擎支持分离式预填充。请参考大规模专家并行教程。

  • 支持自动前缀缓存和分块预填充功能。

  • 推测解码功能支持 Ngram 和 MTP 方法。

  • 现已支持 MoE 和稠密模型的 w4a8 量化。请参考量化指南

  • V1 引擎支持睡眠模式功能。请参考睡眠模式教程

  • 新增了动态和静态 EPLB 支持。此功能仍处于实验阶段。

注意#

以下说明特别适用于从上一个正式版本 (v0.7.3) 升级时参考:

  • 从此版本起,不再支持 V0 引擎。请务必设置 VLLM_USE_V1=1 以在 vLLM Ascend 中使用 V1 引擎。

  • 此版本不需要 Mindie Turbo。旧版本的 Mindie Turbo 不兼容,请勿安装。目前所有功能和增强已包含在 vLLM Ascend 中。我们将在未来根据需要重新考虑添加。

  • Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请勿忘记升级。

核心#

  • 为 V1 引擎添加了 Ascend 调度器。此调度器与 Ascend 硬件的亲和性更好。

  • V1 引擎现在支持结构化输出功能。

  • 添加了一批自定义算子以提升性能。

变更#

  • 为 Qwen3-moe 模型提供 EPLB 支持。#2000

  • 修复了 MTP 与预填充解码分离协同工作不佳的问题。#2610 #2554 #2531

  • 修复了几个问题以确保预填充解码分离正常工作。#2538 #2509 #2502

  • 修复了 torchair 模式下 shutil.rmtree 的文件未找到错误。#2506

已知问题#

  • 运行 MoE 模型时,Aclgraph 模式仅支持张量并行。此版本中不支持 DP/EP。

  • 此版本中 V1 引擎不支持流水线并行。

  • 如果在 eager 模式下使用 w4a8 量化,请设置 VLLM_ASCEND_MLA_PARALLEL=1 以避免 OOM 错误。

  • 使用某些工具进行的精度测试可能不正确。这不影响实际用户场景。我们将在下一个补丁版本中修复。#2654

  • 我们注意到,在使用预填充解码分离运行 vLLM Ascend 时仍然存在一些问题。例如,可能存在内存泄漏和服务卡住。这是 vLLM 和 vLLM Ascend 的已知问题导致的。我们将在下一个补丁版本中修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981

v0.9.1rc3 - 2025.08.22#

这是 vLLM Ascend v0.9.1 的第三个候选版本。请按照官方文档开始使用。

核心#

  • MTP 支持 V1 调度器 #2371

  • 添加 LMhead TP 通信组 #1956

  • 修复了 qwen3 moe 无法与 aclgraph 协同工作的问题 #2478

  • 修复了因过时的 apply_grammar_bitmask 方法导致的 grammar_bitmask IndexError #2314

  • 移除了 chunked_prefill_for_mla #2177

  • 修复问题并重构缓存掩码生成逻辑 #2326

  • 修复了关于 ascend 调度器的配置检查逻辑 #2327

  • 在分离式预填充部署中,取消对 deepseek-mtp 和非 ascend 调度器之间的验证 #2368

  • 修复了在 ray 分布式后端失败的问题 #2306

  • 修复了 ascend 调度器中请求块长度不正确的问题 #2394

  • 修复了 rope 中的头文件包含问题 #2398

  • 修复了 mtp 配置问题 #2412

  • 修复错误信息并适配 attn_metedata 重构 #2402

  • 修复了因配置不匹配和 .kv_cache_bytes 文件缺失导致的 torchair 运行时错误 #2312

  • with_prefill allreduce 从 CPU 移到 NPU #2230

文档#

  • 添加 deepseek 大规模 EP 文档 #2339

已知问题#

  • 在 A2 (910B1) 上,当 "full_cuda_graph": True 时,test_aclgraph.py 失败 #2182

v0.10.0rc1 - 2025.08.07#

这是 vLLM Ascend v0.10.0 的第一个候选版本。请按照官方文档开始使用。V0 已从此版本中完全移除。

亮点#

  • 分离式预填充现在可与 V1 引擎协同工作。您可以尝试 DeepSeek 模型 #950,按照此教程

  • 稠密模型和 MoE 模型现在支持 W4A8 量化方法。#2060 #2172

核心#

  • Ascend PyTorch 适配器 (torch_npu) 已升级至 2.7.1.dev20250724#1562 并且 CANN 已升级至 8.2.RC1#1653 请勿忘记在您的环境中更新或使用最新的镜像。

  • vLLM Ascend 现可在 Atlas 800I A3 上运行,A3 的镜像将从此版本开始发布。#1582

  • vLLM Ascend 现已支持带 w8a8 量化的 Kimi-K2、Qwen3-Coder 和 GLM-4.5,请按照此教程尝试。#2162

  • V1 现在支持流水线并行。#1800

  • 前缀缓存功能现在可与 Ascend 调度器协同工作。#1446

  • Torchair 图模式现在支持 tp > 4。#1508

  • MTP 现在支持 torchair 图模式 #2145

其他#

  • 错误修复:

    • 修复了 Qwen2-audio 等多模态模型与 Aclgraph 的功能性问题。#1803

    • 修复了外部启动场景下的进程组创建错误。#1681

    • 修复了引导解码的功能性问题。#2022

    • 修复了常见 MoE 模型在 DP 场景下的精度问题。#1856

  • 通过大量 PR 提升了性能:

    • 缓存 sin/cos 而不是每层计算。#1890

    • 改进共享专家多流并行 #1891

    • 在启用 tp 时,实现了预填充阶段 allreduce 和 matmul 的融合。通过设置 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE1 启用此功能。#1926

    • 通过减少 All2All 通信优化量化 MoE 性能。#2195

    • 在自定义模型中使用 AddRmsNormQuant 算子来优化 Qwen3 的性能 #1806

    • 使用组播来避免将解码请求填充到预填充大小 #1555

    • LoRA 的性能已得到提升。#1884

  • 一系列重构 PR 以增强代码架构:

    • 重构 Torchair 模型运行器 #2205

    • 重构 forward_context 和 model_runner_v1 #1979

    • 重构 AscendMetaData 注释 #1967

    • 重构 torchair 工具 #1892

    • 重构 torchair worker #1885

    • 注册激活自定义算子,而不是覆盖 forward_oot。#1841

  • 参数变更:

    • additional_config 中的 expert_tensor_parallel_size 已被移除,EP 和 TP 现在与 vLLM 保持一致。#1681

    • 在环境变量中添加 VLLM_ASCEND_MLA_PA,用于启用 deepseek mla 解码的 mla 分页注意力算子。

    • 在环境变量中添加 VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE,用于在启用张量并行时启用 MatmulAllReduce 融合内核。此功能在 A2 上受支持,eager 模式将获得更好的性能。

    • 在环境变量中添加 VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于决定是否启用 moe all2all seq,这在 alltoall 的基础上提供了一个便于扩展的基本框架。

  • 在遵循此 RFC 的一系列 PR 之后,单元测试覆盖率达到了 76.34% #1298

  • 序列并行适用于 Qwen3 MoE。#2209

  • 现已添加中文在线文档。#1870

已知问题#

  • Aclgraph 目前无法与 DP + EP 协同工作,主要差距在于 Aclgraph 捕获图所需的 NPU 流数量不足。#2229

  • 启用多流的 W8A8 动态量化 DeepSeek 存在精度问题。这将在下一个版本中修复。#2232

  • 在 Qwen3 MoE 中,SP 无法集成到 Aclgraph 中。#2246

  • MTP 目前不支持 V1 调度器,将在第三季度修复。#2254

  • 在 DP > 1 的情况下运行 MTP 时,由于 vLLM 的某些问题,我们需要禁用指标记录器。#2254

v0.9.1rc2 - 2025.08.04#

这是 vLLM Ascend v0.9.1 的第二个候选版本。请按照官方文档开始使用。

亮点#

模型改进#

图模式改进#

  • 修复了 DeepSeek 与 mc2 的问题 #1269

  • 修复了 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题 #1332

  • 修复了 torchair_graph_batch_sizes 的问题 #1570

  • 为 torchair 图模式启用 tp <= 4 的限制 #1404

  • 修复 rope 精度问题 #1887

  • 支持 FusedMoE 中共享专家的多流 #997

  • 为 torchair 图模式的解码过程启用 kvcache_nz #1098

  • 修复在 torchair 场景下的 chunked-prefill,解决 UnboundLocalError:局部变量 'decode_hs_or_q_c' 的问题。#1378

  • 改进 shared experts 在 w8a8 动态量化下的多流性能。#1561

  • 修复在启用 multistream 时的 MoE 错误。#1882

  • 在 EP 场景中将图的批大小向上舍入到 tp_size。#1610

  • 修复在启用数据并行(DP)时的 torchair 错误。#1727

  • 为 torchair_graph_config 添加额外检查。#1675

  • 修复在 torchair + chunk-prefill 场景下的 rope(位置编码)错误。#1693

  • 当 chunked_prefill 为 true 时修复 torchair_graph 的错误。#1748

  • 改进 prefill 优化以支持 torchair graph 模式。#2090

  • 修复数据并行(DP)场景中的 rank 设置问题。#1247

  • 重置所有未使用的位置以防止越界,从而解决 GatherV3 的错误。#1397

  • 在 ModelRunner 中移除重复的多模态代码。#1393

  • 修复 block table 的形状以解决准确率问题。#1297

  • 在受限场景下实现原始全图(primal full graph)。#1503

  • 在 Full Graph 中恢复 paged attention 内核以提升性能。#1677

  • 修复在极端 --gpu-memory-utilization 情况下 DeepSeek 的 OOM 问题。#1829

  • 在启用 TorchAir 时关闭 aclgraph。#2154

算子改进#

  • 新增自定义 AscendC 内核 vocabparallelembedding。#796

  • 修复 rope 正弦/余弦缓存错误。#1267

  • 重构 AscendFusedMoE(#1229)。#1264

  • 在采样器中使用融合操作 npu_top_k_top_p。#1920

核心:#

  • 将 CANN 升级到 8.2.rc1。#2036

  • 将 torch-npu 升级到 2.5.1.post1。#2135

  • 将 Python 升级到 3.11。#2136

  • 在 mindie_turbo 中禁用量化。#1749

  • 修复 v0 规范的解码。#1323

  • 仅在使用 V0 规范解码时直接启用 ACL_OP_INIT_MODE=1#1271

  • 重构 forward_context 和 model_runner_v1。#1422

  • 修复采样参数。#1423

  • 新增开关以在权重中启用 NZ 布局,并为 GMM 启用 NZ。#1409

  • 修复 ascend_forward_context 中的错误。#1449 #1554 #1598

  • 处理 PrefillCacheHit 状态以修复前缀缓存准确率错误。#1492

  • 修复加载权重错误并新增端到端测试用例。#1651

  • 优化 deepseek 中 rope 相关索引选择的数量。#1614

  • 新增 mc2 掩码。#1642

  • 修复静态 EPLB 的 log2phy 条件并改进单元测试。#1667 #1896 #2003

  • 为 prefill 添加了 chunk mc2。#1703

  • 修复 mc2 操作中 GroupCoordinator 的 bug。#1711

  • 修复无法识别实际量化类型的故障。#1721

  • 修复当 tp_size == 1 时 DeepSeek 的 bug。#1755

  • 在 prefill 节点中添加对 delay-free blocks 的支持。#1691

  • 为未量化的强化学习(RL)训练优化 MoE 的 alltoallv 通信,并在 alltoallv 中支持 DPO。#1547

  • 适配 dispatchV2 接口。#1822

  • 修复在长输出下 disaggregate prefill 挂起的问题。#1807

  • 在 engine v0 时修复 flashcomm_v1。#1859

  • 修复某些情况下 ep_group 与 word_size 不相等的问题。#1862

  • 修复 wheel 的 glibc 版本不兼容问题。#1808

  • 修复 mc2 进程组,解决 self.cpu_group 为 None 的问题。#1831

  • 将 vllm 版本固定为 v0.9.1 以使 mypy 检查通过。#1904

  • 为 MoE 应用 npu_moe_gating_top_k_softmax 以提升性能。#1902

  • 修复 engine v0 时 path_decorator 的错误。#1919

  • 在 disaggregated-prefill 场景下避免执行 CPU all_reduce。#1644

  • 在 decode MoE 中添加 super kernel。#1916

  • 【Prefill 性能】并行策略优化(以显存换取速度)。#1802

  • 在 shared_experts.down_proj 中移除不必要的 reduce_results 访问。#2016

  • 通过向量化优化 greedy reject 采样器。#2002

  • 使单机上可以运行多个 P 与 D(进程/设备)。#1936

  • 当 tp > 1 且启用 multistream_moe 时,修复 deepseek 模型中 shared 与 routed experts 之间的形状冲突。#2075

  • 新增 CPU 绑定支持。#2031

  • 新增 with_prefill CPU allreduce 以处理 D 节点的重计算。#2129

  • 新增 D2H 与 initRoutingQuantV2 以提升 prefill 性能。#2038

文档#

  • 提供用于执行耗时分析的端到端指南。#1113

  • 为 CANN 安装包下载 URL 添加 Referer 头。#1192

  • 新增重装说明文档。#1370

  • 更新 Disaggregate prefill 的 README。#1379

  • 为 kv cache register 风格添加 Disaggregate prefill。#1296

  • 修复 examples/disaggregate_prefill_v1/README.md 中的错误与不规范部分。#1965

已知问题#

  • 对于启用 full_cuda_graph 的特定硬件类型,Full graph 模式尚不可用。#2182

  • 当启用 EP 时,Qwen3 MoE 的 aclgraph 模式在 tp 模式下因 bincount 错误而失败。#2226

  • 如 v0.9.1rc1 发布说明中所述,Atlas 300I 系列的支持将不会被包含在内。

v0.9.2rc1 - 2025.07.11#

这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。

亮点#

  • Pooling 模型现在可以与 V1 引擎一起使用。你可以尝试使用 Qwen3 embedding 模型 #1359

  • Atlas 300I 系列的性能已经提升。 #1591

  • aclgraph 模式现在可以与 Moe 模型一起使用。目前,仅对 Qwen3 Moe 进行了充分测试。#1381

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250619。请不要忘记在您的环境中进行更新。 #1347

  • GatherV3 错误已通过 aclgraph 模式修复。#1416

  • W8A8 量化现在可以在 Atlas 300I 系列上运行了。#1560

  • 修复了使用并行参数部署模型时的准确性问题。#1678

  • 预编译的 wheel 包现在要求更低版本的 glibc。用户可以直接通过 pip install vllm-ascend 使用它。#1582

其他#

  • 官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,用户/开发者文档已更新。更多指南即将推出。

  • 修复 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题。#1331

  • 新增了一个环境变量 VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 Deepseek V3/R1 模型的 fused allgather-experts 内核。默认值为 0#1335

  • 新增了一个环境变量 VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项#1732

  • 已修复了一批与数据并行相关的 bug #1273 #1322 #1275 #1478

  • DeepSeek 的性能已得到提升。#1194 #1395 #1380

  • Ascend 调度器现在支持前缀缓存。#1446

  • DeepSeek 现在支持前缀缓存了。#1498

  • 支持使用 prompt logprobs 恢复 V1 的 ceval 准确率 #1483

已知问题#

  • 修复了可能导致CPU内存泄漏的问题。 #691 #712

New Contributors#

  • 添加每晚持续集成 #668

  • 添加每晚持续集成 #668

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 添加每晚持续集成 #668

  • LLama4 现在可以使用了。#740

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 添加 Qwen3-0.6B 测试 #717

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 添加每晚持续集成 #668

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

v0.9.1rc1 - 2025.06.22#

这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。

Experimental#

  • Atlas 300I series is experimental supported in this release (Functional test passed with Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B). #1333

  • 支持 EAGLE-3 进行推测式解码。#1032

本版本对 Atlas 300I 系列提供了实验性支持。#1333 经过慎重考虑,鉴于 v0.9.1 版本发布的质量要求以及 Atlas 300I 系列性能优化的快速迭代,该功能不会被包含在 v0.9.1-dev 分支中。我们将在 0.9.2rc1 及之后的版本中进一步完善该功能。

核心#

  • Ascend PyTorch 适配器(torch_npu)已升级到 2.5.1.post1.dev20250528。请不要忘记在您的环境中进行更新。#1235

  • 支持Atlas 300I系列的容器镜像。你可以从quay.io获取。

  • 修复按 token 填充机制以支持多卡图模式。 #1300

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

其他改进#

  • 为MLA初步支持分块预填充。 #1172

  • 已新增一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101

  • 通过使用 TorchAir 图对 DeepSeek 进行了性能提升。#1098, #1131

  • 支持 AscendScheduler 的预测性解码功能。#943

  • 提升 VocabParallelEmbedding 自定义算子的性能。该优化将在下一个版本中启用。#796

  • 修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置错误 #884

  • DeepSeek 现已可以与 MC2(计算与通信融合)正常工作。#1268

  • 修复了带有静态 EPLB 特性时 log2phy 为 NoneType 的 bug。#1186

  • 启用 DBO 后,DeepSeek 的性能得到提升。#997#1135

  • 重构 AscendFusedMoE #1229

  • 新增初始用户故事页面(包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)#1224

  • 添加单元测试框架 #1201

已知问题#

  • 在某些情况下,当启用 aclgraph 时,vLLM 进程可能会因 GatherV3 错误而崩溃。我们正在解决此问题,并将在下一个版本中修复。#1038

  • 前缀缓存功能在未启用分块预填充的情况下无法与 Ascend 调度器一同工作。此问题将在下一个版本中修复。#1350

完整更新日志#

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

New Contributors#

  • 添加每晚持续集成 #668

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 添加每晚持续集成 #668

  • 添加每晚持续集成 #668

  • 将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165

  • 添加单元测试框架 #1201

https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1

v0.9.0rc2 - 2025.06.10#

本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。

亮点#

  • 修复当以非可编辑方式安装 vllm-ascend 时的导入错误。#1152

v0.9.0rc1 - 2025.06.09#

这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开始使用。从此版本起,推荐使用 V1 引擎。V0 引擎的代码已被冻结,不再维护。如需启用 V1 引擎,请设置环境变量 VLLM_USE_V1=1

亮点#

  • DeepSeek 现在已支持图模式。请按照官方文档进行尝试。#789

  • Qwen 系列模型现在支持图模式。默认情况下,它在 V1 引擎下运行。请注意,本次发布中,仅 Qwen 系列模型经过了充分的图模式测试。我们将在下一个版本中进一步提升其稳定性并推广至更广泛的场景。如果你遇到任何问题,请随时在 GitHub 上提交 issue,并在初始化模型时通过设置 enforce_eager=True 临时切换回 eager 模式。

核心#

  • 多步调度器的性能得到了提升。感谢招商银行的贡献。#814

  • V1 引擎现在支持 LoRA、多 LoRA 以及动态服务。感谢招商银行的贡献。#893

  • 前缀缓存和分块预填充功能现已可用 #782 #844

  • Spec 解码和 MTP 功能现在已经支持 V1 引擎。#874 #890

  • DP 功能现在可以与 DeepSeek 一起使用。#1012

  • 输入嵌入特性现在已支持 V0 引擎。#916

  • 休眠模式功能现在已支持 V1 引擎。#1084

模型#

  • Qwen2.5 VL 现在可以与 V1 引擎协同工作。#736

  • LLama4 现在可以使用了。#740

  • 新增了一种名为双批次重叠(dual-batch overlap,DBO)的 DeepSeek 模型。请设置 VLLM_ASCEND_ENABLE_DBO=1 以启用。 #941

其他#

已知问题#

  • 在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。

  • 多节点数据并行在此版本中无法使用。这是 vllm 中已知的问题,并已在主分支中修复。 #18981

v0.7.3.post1 - 2025.05.29#

这是 0.7.3 的第一个补丁发布。请按照官方文档开始使用。本次更新包括以下更改:

亮点#

  • 现在已支持 Qwen3 和 Qwen3MOE。Qwen3 的性能和精度已经过充分测试,你可以立即试用。推荐使用 Mindie Turbo 以提升 Qwen3 的性能。#903 #915

  • 新增了一个性能指南。该指南旨在帮助用户在系统层面提升 vllm-ascend 的性能。内容包括操作系统配置、库优化、部署指南等。 #878 文档链接

漏洞修复#

  • Qwen2.5-VL 现在已支持 RLHF 场景。#928

  • 用户现在可以直接从在线权重启动模型。例如,可以直接从 huggingface 或 modelscope 获取。#858 #918

  • 无意义的日志信息 UserWorkspaceSize0 已被清理。#911

  • Failed to import vllm_ascend_C 的日志级别已从 error 更改为 warning#956

  • DeepSeek MLA 现已在 V1 引擎中支持分块预填充。请注意,0.7.3 版本中的 V1 引擎仅为实验性,仅供测试使用。#849 #936

文档#

  • 基准文档已针对 Qwen2.5 和 Qwen2.5-VL 更新 #792

  • 添加说明,明确只有 "modelscope<1.23.0" 能与 0.7.3 一起使用。#954

v0.7.3 - 2025.05.08#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend 0.7.3 版本正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已充分测试和验证。我们鼓励您试用并反馈意见。如有需要,未来我们将发布修复版本。请参阅官方文档开启您的体验之旅。

亮点#

  • 本次发布包含了所有在之前候选版本中加入的功能(v0.7.1rc1v0.7.3rc1v0.7.3rc2)。所有功能都经过了全面测试和验证。请访问官方文档获取详细的功能模型支持矩阵。

  • 将 CANN 升级到 8.1.RC1 以启用分块预填充和自动前缀缓存功能。您现在可以启用这些功能了。

  • 升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户现在无需手动安装 torch-npu,2.5.1 版本的 torch-npu 会被自动安装。#662

  • 将 MindIE Turbo 集成到 vLLM Ascend 以提升 DeepSeek V3/R1、Qwen 2 系列的性能。#708

核心#

  • 现在已经支持 LoRA、多LoRA 和动态服务。下一个版本中性能将会提升。请参阅官方文档以获取更多用法信息。感谢招商银行的贡献。#700

模型#

  • Qwen2 vl 和 Qwen2.5 vl 的性能得到了提升。 #702

  • apply_penaltiestopKtopP 操作的性能得到了提升。 #525

其他#

  • 修复了可能导致CPU内存泄漏的问题。 #691 #712

  • 新增了一个环境变量 SOC_VERSION。如果在启用自定义算子时构建过程中遇到 soc 检测错误,请将 SOC_VERSION 设置为合适的值。#606

  • openEuler 容器镜像已支持 v0.7.3-openeuler 标签。#665

  • 前缀缓存功能现在已在 V1 引擎上工作。#559

v0.8.5rc1 - 2025.05.06#

这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开始使用。现在,您可以通过设置环境变量 VLLM_USE_V1=1 启用 V1 引擎。关于 vLLM Ascend 的特性支持情况,请参见这里

亮点#

  • 将 CANN 版本升级到 8.1.RC1,以支持在启用 V1 时的分块预填充和自动前缀缓存(--enable_prefix_caching#747

  • 优化 Qwen2 VL 和 Qwen 2.5 VL #701

  • 改进了 Deepseek V3 的 eager 模式和图模式性能,现在你可以使用 --additional_config={'enable_graph_mode': True} 来启用图模式。#598 #719

核心#

  • 将 vLLM 升级到 0.8.5.post1 #715

  • 修复在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题 #682

  • 适配由 modelslim 生成的新量化模型 #719

  • 基于 llm_datadist 的 P2P 分布式 Prefill 初步支持 #694

  • 使用 /vllm-workspace 作为代码路径,并在容器镜像中包含 .git ,以修复在 /workspace 下启动 vllm 时的问题 #726

  • 优化NPU内存使用,以使 DeepSeek R1 W8A8 32K 模型长度能够运行。#728

  • 修复 setup.py 中的 PYTHON_INCLUDE_PATH 拼写错误 #762

其他#

  • 添加 Qwen3-0.6B 测试 #717

  • 添加每晚持续集成 #668

  • 添加准确性测试报告 #542

v0.8.4rc2 - 2025.04.29#

这是 vllm-ascend 的 v0.8.4 第二个候选版本。请按照官方文档开始使用。本版本包含了一些实验性功能,如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使这些功能更加稳定。

亮点#

  • 现在已支持 Qwen3 和 Qwen3MOE。请按照官方文档运行快速演示。#709

  • 现在支持 Ascend W8A8 量化方法。请参考官方文档 示例。欢迎提供任何反馈#580

  • DeepSeek V3/R1 现在已经支持 DP、TP 和 MTP。请注意,目前仍处于实验阶段。如果遇到任何问题,请告知我们。 #429 #585 #626 #636 #671

核心#

  • ACLGraph 特性现在已被 V1 引擎支持。它默认是禁用的,因为该特性依赖于 CANN 8.1 版本。我们将在下一个版本中默认启用此特性 #426

  • 升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖 dev 版本的 torch-npu,用户无需手动安装 torch-npu。torch-npu 的 2.5.1 版本将会自动安装。#661

其他#

  • MiniCPM 模型现在可以使用了。#645

  • openEuler 容器镜像已支持 v0.8.4-openeuler 标签,并且 openEuler 操作系统默认启用了自定义 Ops 构建。#689

  • 修复 ModuleNotFoundError 错误以使 Lora 正常工作 #600

  • 添加了“使用 EvalScope 评估”文档 #611

  • 新增了一个 VLLM_VERSION 环境变量,使 vLLM 版本可以配置,帮助开发者在本地手动修改 vLLM 代码后,设置正确的 vLLM 版本。#651

v0.8.4rc1 - 2025.04.18#

这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开始使用。本版本起,vllm-ascend 将跟随 vllm 的最新版本并每两周发布一次。例如,如果 vllm 在接下来的两周内发布 v0.8.5,vllm-ascend 将发布 v0.8.5rc1,而不是 v0.8.4rc2。详细信息请参考官方文档

亮点#

  • 本版本包含了对 vLLM V1 引擎的实验性支持。你可以访问官方指南获取更多详细信息。默认情况下,如果 V1 不可用,vLLM 会自动回退到 V0。如果你想强制使用 V1,请设置 VLLM_USE_V1=1 环境变量。

  • 现在已支持 LoRA、Multi-LoRA 和动态服务。性能将在下一个版本中得到提升。请参阅官方文档获取更多使用信息。感谢招商银行的贡献。#521

  • 已支持休眠模式功能。目前它只在V0引擎上有效,V1引擎的支持即将到来。#513

核心#

  • 为V1引擎新增了Ascend调度器。该调度器与Ascend硬件更加适配。未来还将添加更多调度策略。 #543

  • 支持分离式预填充(Disaggregated Prefill)功能。目前仅支持1P1D,NPND正在由vllm团队设计中。一旦vLLM支持,vllm-ascend将会支持。请按照官方指南使用。#432

  • Spec 解码功能现在可以使用。目前它只在 V0 引擎上工作,对 V1 引擎的支持即将到来。#500

  • 结构化输出功能现在已在V1引擎上生效。目前仅支持xgrammar后端,使用guidance后端可能会出现一些错误。#555

其他#

  • 新增了一个通信器 pyhccl。它用于直接调用 CANN HCCL 库,而不是使用 torch.distribute。将在下一个版本中添加更多用法 #503

  • 自定义算子的构建默认是启用的。你应该先安装如 gcccmake 等包以便从源码编译 vllm-ascend。如果不需要自定义算子的编译,可以设置环境变量 COMPILE_CUSTOM_KERNELS=0 来禁用编译。 #466

  • 自定义算子 rotay embedding 现在已默认启用,以提升性能。#555

v0.7.3rc2 - 2025.03.29#

这是 vllm-ascend v0.7.3 的第二个候选发布版本。请根据官方文档开始使用。

  • 容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html

  • 安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

  • 新增了Ascend自定义算子框架。开发者现在可以使用AscendC编写自定义算子。新增了一个示例算子 rotary_embedding 。更多教程即将发布。安装vllm-ascend时,自定义算子的编译默认是关闭的。可通过设置 COMPILE_CUSTOM_KERNELS=1 启用。#371

  • 本版本对 V1 引擎提供了基础支持,全面支持将在 0.8.X 版本中完成。如果您遇到任何问题或有 V1 引擎的相关需求,请在这里告诉我们。#376

  • 前缀缓存功能现在已经可用。你可以通过设置 enable_prefix_caching=True 来启用该功能。#282

核心#

  • 将 torch_npu 版本升级到 dev20250320.3 以提升精度,修复 !!! 输出问题。#406

模型#

  • 通过优化 patch embedding(Conv3D),Qwen2-vl 的性能得到了提升。#398

其他#

  • 修复了一个错误,以确保多步调度器功能正常工作。#349

  • 修复了一个 bug,使前缀缓存功能能够以正确的准确性运行。#424

v0.7.3rc1 - 2025.03.14#

🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请按照官方文档开始你的旅程。

  • 容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html

  • 安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html

亮点#

  • DeepSeek V3/R1 现在运行良好。请阅读官方指南开始!#242

  • 已支持猜测性解码功能。#252

  • 已支持多步调度器功能。#300

核心#

  • 将 torch_npu 版本升级到 dev20250308.3,以提升 _exponential 的精度

  • 新增了对池化模型的初步支持。现在支持 Bert 基础模型,如 BAAI/bge-base-en-v1.5BAAI/bge-reranker-v2-m3#229

模型#

  • Qwen2-VL 的性能得到了提升。#241

  • MiniCPM 现在已被支持 #164

其他#

  • 为 DeepSeek V3/R1 支持 MTP(多标记预测) #236

  • [文档] 增加了更多的模型教程,包括 DeepSeek、QwQ、Qwen 和 Qwen 2.5VL。详情请参见官方文档

  • 在 vLLM v0.7.3 上锁定 modelscope 版本低于 1.23.0,以解决:https://github.com/vllm-project/vllm/pull/13807

已知问题#

  • 某些情况下,特别是当输入或输出非常长时,输出的准确性可能会有误。我们正在解决这个问题。将在下一个版本中修复。

  • 改进并减少了模型输出中的乱码问题。但如果你仍然遇到该问题,请尝试更改生成配置的参数,例如 temperature,然后再试一次。下面还列出了一个已知问题。欢迎提供任何反馈#277

v0.7.1rc1 - 2025.02.19#

🎉 你好,世界!

我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选版本发布。

vLLM Ascend 插件(vllm-ascend)是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受到 vLLM 的最新功能和改进。

请参阅官方文档开始您的体验之旅。请注意,这是一个候选发布版本,可能会有一些漏洞或问题。我们非常欢迎您在这里提交反馈和建议。

亮点#

  • 在 vLLM 上初步支持 Ascend NPU。#3

  • 现在已支持 DeepSeek。 #88 #68

  • Qwen、Llama 系列及其他流行的模型也受支持,更多详情可参见这里

核心#

  • 新增了 Ascend 量化配置选项,具体实现即将推出。#7 #73

  • 添加 silu_and_mul 和 rope 操作,并将混合操作加入到 attention 层。 #18

其他#

  • [CI] 启用 Ascend CI,主动监测并提升 vLLM 在 Ascend 上的质量。#3

  • [Docker] 添加 vllm-ascend 容器镜像 #64

  • [文档] 添加了一个 在线文档 #55

已知问题#

  • 此版本依赖于尚未发布的 torch_npu 版本。该版本已集成在官方容器镜像中。如果您使用的是非容器环境,请手动安装

  • 在运行 vllm-ascend 时,会显示类似 No platform detected, vLLM is running on UnspecifiedPlatformFailed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'") 的日志。这实际上不会影响任何功能和性能,你可以直接忽略它。这个问题已在此 PR 中修复,并很快会在 v0.7.3 版本中包含。

  • 在运行 vllm-ascend 时,会显示类似 # CPU blocks: 35064, # CPU blocks: 2730 的日志,实际应该为 # NPU blocks:。这实际上不会影响任何功能和性能,你可以忽略它。该问题已在这个 PR 中修复,并将在 v0.7.3 版本中包含。