发布说明#
v0.11.0 - 2025.12.16#
我们很高兴地宣布 vLLM Ascend v0.11.0 版本正式发布。这是 v0.11.0 的官方版本。请按照官方文档开始使用。我们将在未来根据需要发布后续版本。本发布说明仅包含自 v0.11.0rc3 以来的重要更改和说明。
亮点#
其他#
弃用声明#
LLMdatadist 连接器已被弃用,将在 v0.12.0rc1 中移除
Torchair 图模式已被弃用,将在 v0.12.0rc1 中移除
Ascend 调度器已被弃用,将在 v0.12.0rc1 中移除
升级须知#
torch-npu 已升级至 2.7.1.post1。请注意,该软件包被推送至 pypi 镜像站,因此难以自动添加依赖,请自行安装。
CANN 已升级至 8.3.rc2。
已知问题#
Qwen3-Next 在此版本中不支持专家并行和 MTP 功能。如果输入过长,可能会导致 OOM。我们将在下一个版本中改进。
Deepseek 3.2 在此版本中仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认情况下无法工作。临时解决方案是将
--gpu-memory-utilization设置为合适值,例如 0.8。如果在同一节点上运行多个 vLLM 实例,CPU 绑定功能将不起作用。
v0.11.0rc3 - 2025.12.03#
这是 vLLM Ascend v0.11.0 的第三个候选版本。出于质量考虑,我们在正式发布前发布了新的 rc。感谢所有反馈。请按照官方文档开始使用。
亮点#
其他#
v0.11.0rc2 - 2025.11.21#
这是 vLLM Ascend v0.11.0 的第二个候选版本。在此版本中,我们修复了许多问题以提升质量。感谢所有反馈。我们将继续致力于修复问题和性能改进。v0.11.0 官方发布即将到来。请按照官方文档开始使用。
亮点#
核心#
其他#
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个候选版本。请按照官方文档开始使用。v0.11.0 将是 vLLM Ascend 的下一个官方版本。我们将在几天内发布。欢迎提供任何反馈以帮助我们改进 v0.11.0。
亮点#
核心#
其他#
已知问题#
长时间服务后可能存在内存泄漏和服务卡住的问题。这是 torch-npu 的一个问题,我们将尽快升级并修复。
qwen2.5 VL 的精度不佳。这是 CANN 导致的问题,我们将很快修复。
对于长序列输入场景,有时无响应且 KV 缓存使用率变高。这是调度器的问题,我们正在处理。
Qwen2-audio 默认无法工作,我们正在修复。临时解决方案是将
--gpu-memory-utilization设置为合适值,例如 0.8。启用专家并行运行 Qwen3-Next 时,请将
HCCL_BUFFSIZE环境变量设置为合适值,例如 1024。DeepSeek3.2 使用 aclgraph 时精度不正确。临时解决方案是根据输入的批次大小将
cudagraph_capture_sizes设置为合适的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特别候选版本。请按照官方文档开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个候选版本。请按照官方文档开始使用。
亮点#
核心#
其他#
W8A8 量化的性能得到提升。#2275
修复了应用推测解码和 aclgraph 时的资源限制错误。#2472
修复了 Docker 镜像中的 git 配置错误。#2746
修复了预填充中的滑动窗口注意力问题。#2758
新增了 Qwen3 预填充-解码分离的官方文档。#2751
环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP重新生效。#2740新增了对 deepseek 中 oproj 的改进。设置
oproj_tensor_parallel_size以启用此功能。#2167修复了 deepseek 在使用 torchair 时,当设置
graph_batch_sizes后工作异常的问题。#2760当 kv_seqlen > 4k 时,避免在 rope 中重复生成 sin_cos_cache。#2744
通过 flashcomm_v1 提升了 Qwen3 稠密模型的性能。设置
VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1和VLLM_ASCEND_ENABLE_FLASHCOMM=1以启用。#2779通过预取功能提升了 Qwen3 稠密模型的性能。设置
VLLM_ASCEND_ENABLE_PREFETCH_MLP=1以启用。#2816通过更新 rope 算子提升了 Qwen3 MoE 模型的性能。#2571
修复了 RLHF 场景下的权重加载错误。#2756
添加 warm_up_atb 步骤以加速推理。#2823
修复了 MoE 模型的 aclgraph 流错误。#2827
已知问题#
在 P 和 D 的 TP 大小不同时运行预填充解码分离,服务器会挂起。此问题已通过 vLLM commit 修复,但该提交未包含在 v0.10.2 中。您可以选择此提交来修复该问题。
Qwen3-Next 的 HBM 使用率高于预期。这是一个已知问题,我们正在处理。您可以根据并行配置设置合适的
max_model_len和gpu_memory_utilization值以避免 OOM 错误。我们注意到,由于 KV 缓存的重构,LoRA 在此版本中无法工作。我们将很快修复。2941
使用 Ascend 调度器运行时,请不要启用带有前缀缓存的分块预填充。性能和精度不佳/不正确。#2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个候选版本。请按照官方文档开始使用。
亮点#
核心#
其他#
错误修复:
通过大量 PR 提升了性能:
一系列重构 PR 以增强代码架构:
参数变更:
在
additional_config中添加了lmhead_tensor_parallel_size,设置它以启用 lmhead 张量并行。#2309移除了未使用的环境变量
HCCN_PATH、PROMPT_DEVICE_ID、DECODE_DEVICE_ID、LLMDATADIST_COMM_PORT和LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT已重命名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450在环境变量中添加了
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于决定在启用张量并行时是否启用 MLP 优化,此功能在 eager 模式下将获得更好的性能。#2120移除了环境变量中的
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中添加了enable_prefetch,用于决定是否启用权重预取。#2465在
additional_config.torchair_graph_config中添加了mode,当 torchair 使用 reduce-overhead 模式时,需要设置此参数。#2461additional_config中的enable_shared_expert_dp现在默认禁用,建议在使用 deepseek 推理时启用。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴地宣布 vLLM Ascend 最新正式版本发布。此版本包含了许多功能支持、性能改进和错误修复。我们建议用户从 0.7.3 升级到此版本。请务必设置 VLLM_USE_V1=1 以使用 V1 引擎。
在此版本中,我们为大规模专家并行场景添加了许多增强功能。建议遵循官方指南。
请注意,本发布说明将列出自上一个正式版本 (v0.7.3) 以来的所有重要更改。
亮点#
注意#
以下说明特别适用于从上一个正式版本 (v0.7.3) 升级时参考:
从此版本起,不再支持 V0 引擎。请务必设置
VLLM_USE_V1=1以在 vLLM Ascend 中使用 V1 引擎。此版本不需要 Mindie Turbo。旧版本的 Mindie Turbo 不兼容,请勿安装。目前所有功能和增强已包含在 vLLM Ascend 中。我们将在未来根据需要重新考虑添加。
Torch-npu 已升级至 2.5.1.post1。CANN 已升级至 8.2.RC1。请勿忘记升级。
核心#
为 V1 引擎添加了 Ascend 调度器。此调度器与 Ascend 硬件的亲和性更好。
V1 引擎现在支持结构化输出功能。
添加了一批自定义算子以提升性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行。此版本中不支持 DP/EP。
此版本中 V1 引擎不支持流水线并行。
如果在 eager 模式下使用 w4a8 量化,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免 OOM 错误。使用某些工具进行的精度测试可能不正确。这不影响实际用户场景。我们将在下一个补丁版本中修复。#2654
我们注意到,在使用预填充解码分离运行 vLLM Ascend 时仍然存在一些问题。例如,可能存在内存泄漏和服务卡住。这是 vLLM 和 vLLM Ascend 的已知问题导致的。我们将在下一个补丁版本中修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第三个候选版本。请按照官方文档开始使用。
核心#
MTP 支持 V1 调度器 #2371
添加 LMhead TP 通信组 #1956
修复了 qwen3 moe 无法与 aclgraph 协同工作的问题 #2478
修复了因过时的
apply_grammar_bitmask方法导致的grammar_bitmaskIndexError #2314移除了
chunked_prefill_for_mla#2177修复问题并重构缓存掩码生成逻辑 #2326
修复了关于 ascend 调度器的配置检查逻辑 #2327
在分离式预填充部署中,取消对 deepseek-mtp 和非 ascend 调度器之间的验证 #2368
修复了在 ray 分布式后端失败的问题 #2306
修复了 ascend 调度器中请求块长度不正确的问题 #2394
修复了 rope 中的头文件包含问题 #2398
修复了 mtp 配置问题 #2412
修复错误信息并适配
attn_metedata重构 #2402修复了因配置不匹配和
.kv_cache_bytes文件缺失导致的 torchair 运行时错误 #2312将
with_prefillallreduce 从 CPU 移到 NPU #2230
文档#
添加 deepseek 大规模 EP 文档 #2339
已知问题#
在 A2 (910B1) 上,当
"full_cuda_graph": True时,test_aclgraph.py失败 #2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选版本。请按照官方文档开始使用。V0 已从此版本中完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级至
2.7.1.dev20250724。#1562 并且 CANN 已升级至8.2.RC1。#1653 请勿忘记在您的环境中更新或使用最新的镜像。vLLM Ascend 现可在 Atlas 800I A3 上运行,A3 的镜像将从此版本开始发布。#1582
vLLM Ascend 现已支持带 w8a8 量化的 Kimi-K2、Qwen3-Coder 和 GLM-4.5,请按照此教程尝试。#2162
V1 现在支持流水线并行。#1800
前缀缓存功能现在可与 Ascend 调度器协同工作。#1446
Torchair 图模式现在支持 tp > 4。#1508
MTP 现在支持 torchair 图模式 #2145
其他#
错误修复:
通过大量 PR 提升了性能:
一系列重构 PR 以增强代码架构:
参数变更:
additional_config中的expert_tensor_parallel_size已被移除,EP 和 TP 现在与 vLLM 保持一致。#1681在环境变量中添加
VLLM_ASCEND_MLA_PA,用于启用 deepseek mla 解码的 mla 分页注意力算子。在环境变量中添加
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE,用于在启用张量并行时启用MatmulAllReduce融合内核。此功能在 A2 上受支持,eager 模式将获得更好的性能。在环境变量中添加
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于决定是否启用 moe all2all seq,这在 alltoall 的基础上提供了一个便于扩展的基本框架。
在遵循此 RFC 的一系列 PR 之后,单元测试覆盖率达到了 76.34% #1298
序列并行适用于 Qwen3 MoE。#2209
现已添加中文在线文档。#1870
已知问题#
v0.9.1rc2 - 2025.08.04#
这是 vLLM Ascend v0.9.1 的第二个候选版本。请按照官方文档开始使用。
亮点#
模型改进#
DeepSeek DBO 支持与改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进与错误修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
围绕 rmsnorm/repo/mlp 算子的 Qwen3 性能改进:#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 分块预填充/图模式/多流改进与错误修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
图模式改进#
修复了 DeepSeek 与 mc2 的问题 #1269
修复了 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题 #1332
修复了 torchair_graph_batch_sizes 的问题 #1570
为 torchair 图模式启用 tp <= 4 的限制 #1404
修复 rope 精度问题 #1887
支持 FusedMoE 中共享专家的多流 #997
为 torchair 图模式的解码过程启用 kvcache_nz #1098
修复在 torchair 场景下的 chunked-prefill,解决 UnboundLocalError:局部变量 'decode_hs_or_q_c' 的问题。#1378
改进 shared experts 在 w8a8 动态量化下的多流性能。#1561
修复在启用 multistream 时的 MoE 错误。#1882
在 EP 场景中将图的批大小向上舍入到 tp_size。#1610
修复在启用数据并行(DP)时的 torchair 错误。#1727
为 torchair_graph_config 添加额外检查。#1675
修复在 torchair + chunk-prefill 场景下的 rope(位置编码)错误。#1693
当 chunked_prefill 为 true 时修复 torchair_graph 的错误。#1748
改进 prefill 优化以支持 torchair graph 模式。#2090
修复数据并行(DP)场景中的 rank 设置问题。#1247
重置所有未使用的位置以防止越界,从而解决 GatherV3 的错误。#1397
在 ModelRunner 中移除重复的多模态代码。#1393
修复 block table 的形状以解决准确率问题。#1297
在受限场景下实现原始全图(primal full graph)。#1503
在 Full Graph 中恢复 paged attention 内核以提升性能。#1677
修复在极端
--gpu-memory-utilization情况下 DeepSeek 的 OOM 问题。#1829在启用 TorchAir 时关闭 aclgraph。#2154
算子改进#
核心:#
将 CANN 升级到 8.2.rc1。#2036
将 torch-npu 升级到 2.5.1.post1。#2135
将 Python 升级到 3.11。#2136
在 mindie_turbo 中禁用量化。#1749
修复 v0 规范的解码。#1323
仅在使用 V0 规范解码时直接启用
ACL_OP_INIT_MODE=1。#1271重构 forward_context 和 model_runner_v1。#1422
修复采样参数。#1423
新增开关以在权重中启用 NZ 布局,并为 GMM 启用 NZ。#1409
处理 PrefillCacheHit 状态以修复前缀缓存准确率错误。#1492
修复加载权重错误并新增端到端测试用例。#1651
优化 deepseek 中 rope 相关索引选择的数量。#1614
新增 mc2 掩码。#1642
为 prefill 添加了 chunk mc2。#1703
修复 mc2 操作中 GroupCoordinator 的 bug。#1711
修复无法识别实际量化类型的故障。#1721
修复当 tp_size == 1 时 DeepSeek 的 bug。#1755
在 prefill 节点中添加对 delay-free blocks 的支持。#1691
为未量化的强化学习(RL)训练优化 MoE 的 alltoallv 通信,并在 alltoallv 中支持 DPO。#1547
适配 dispatchV2 接口。#1822
修复在长输出下 disaggregate prefill 挂起的问题。#1807
在 engine v0 时修复 flashcomm_v1。#1859
修复某些情况下 ep_group 与 word_size 不相等的问题。#1862
修复 wheel 的 glibc 版本不兼容问题。#1808
修复 mc2 进程组,解决 self.cpu_group 为 None 的问题。#1831
将 vllm 版本固定为 v0.9.1 以使 mypy 检查通过。#1904
为 MoE 应用 npu_moe_gating_top_k_softmax 以提升性能。#1902
修复 engine v0 时 path_decorator 的错误。#1919
在 disaggregated-prefill 场景下避免执行 CPU all_reduce。#1644
在 decode MoE 中添加 super kernel。#1916
【Prefill 性能】并行策略优化(以显存换取速度)。#1802
在 shared_experts.down_proj 中移除不必要的 reduce_results 访问。#2016
通过向量化优化 greedy reject 采样器。#2002
使单机上可以运行多个 P 与 D(进程/设备)。#1936
当 tp > 1 且启用 multistream_moe 时,修复 deepseek 模型中 shared 与 routed experts 之间的形状冲突。#2075
新增 CPU 绑定支持。#2031
新增 with_prefill CPU allreduce 以处理 D 节点的重计算。#2129
新增 D2H 与 initRoutingQuantV2 以提升 prefill 性能。#2038
文档#
已知问题#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。
亮点#
核心#
其他#
官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,用户/开发者文档已更新。更多指南即将推出。
修复 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题。#1331
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 Deepseek V3/R1 模型的 fused allgather-experts 内核。默认值为0。#1335新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项#1732。Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
支持使用 prompt logprobs 恢复 V1 的 ceval 准确率 #1483
已知问题#
New Contributors#
添加每晚持续集成 #668
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
LLama4 现在可以使用了。#740
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加 Qwen3-0.6B 测试 #717
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
Experimental#
Atlas 300I series is experimental supported in this release (Functional test passed with Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B). #1333
支持 EAGLE-3 进行推测式解码。#1032
本版本对 Atlas 300I 系列提供了实验性支持。#1333 经过慎重考虑,鉴于 v0.9.1 版本发布的质量要求以及 Atlas 300I 系列性能优化的快速迭代,该功能不会被包含在 v0.9.1-dev 分支中。我们将在 0.9.2rc1 及之后的版本中进一步完善该功能。
核心#
其他改进#
为MLA初步支持分块预填充。 #1172
已新增一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持 AscendScheduler 的预测性解码功能。#943
提升
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置错误 #884
修复了带有静态 EPLB 特性时 log2phy 为 NoneType 的 bug。#1186
重构 AscendFusedMoE #1229
新增初始用户故事页面(包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)#1224
添加单元测试框架 #1201
已知问题#
完整更新日志#
https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1
New Contributors#
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加每晚持续集成 #668
添加每晚持续集成 #668
将 vllm 升级到 0.9.1 [#1165]https://github.com/vllm-project/vllm-ascend/pull/1165
添加单元测试框架 #1201
https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复当以非可编辑方式安装 vllm-ascend 时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开始使用。从此版本起,推荐使用 V1 引擎。V0 引擎的代码已被冻结,不再维护。如需启用 V1 引擎,请设置环境变量 VLLM_USE_V1=1。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。
多节点数据并行在此版本中无法使用。这是 vllm 中已知的问题,并已在主分支中修复。 #18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个补丁发布。请按照官方文档开始使用。本次更新包括以下更改:
亮点#
漏洞修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 版本正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已充分测试和验证。我们鼓励您试用并反馈意见。如有需要,未来我们将发布修复版本。请参阅官方文档开启您的体验之旅。
亮点#
本次发布包含了所有在之前候选版本中加入的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能都经过了全面测试和验证。请访问官方文档获取详细的功能和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充和自动前缀缓存功能。您现在可以启用这些功能了。
升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户现在无需手动安装 torch-npu,2.5.1 版本的 torch-npu 会被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 以提升 DeepSeek V3/R1、Qwen 2 系列的性能。#708
核心#
现在已经支持 LoRA、多LoRA 和动态服务。下一个版本中性能将会提升。请参阅官方文档以获取更多用法信息。感谢招商银行的贡献。#700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开始使用。现在,您可以通过设置环境变量 VLLM_USE_V1=1 启用 V1 引擎。关于 vLLM Ascend 的特性支持情况,请参见这里。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1 #715
修复在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题 #682
适配由 modelslim 生成的新量化模型 #719
基于 llm_datadist 的 P2P 分布式 Prefill 初步支持 #694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git,以修复在/workspace下启动 vllm 时的问题 #726优化NPU内存使用,以使 DeepSeek R1 W8A8 32K 模型长度能够运行。#728
修复 setup.py 中的
PYTHON_INCLUDE_PATH拼写错误 #762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend 的 v0.8.4 第二个候选版本。请按照官方文档开始使用。本版本包含了一些实验性功能,如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使这些功能更加稳定。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开始使用。本版本起,vllm-ascend 将跟随 vllm 的最新版本并每两周发布一次。例如,如果 vllm 在接下来的两周内发布 v0.8.5,vllm-ascend 将发布 v0.8.5rc1,而不是 v0.8.4rc2。详细信息请参考官方文档。
亮点#
核心#
其他#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选发布版本。请根据官方文档开始使用。
容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本升级到 dev20250320.3 以提升精度,修复
!!!输出问题。#406
模型#
通过优化 patch embedding(Conv3D),Qwen2-vl 的性能得到了提升。#398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请按照官方文档开始你的旅程。
容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本升级到 dev20250308.3,以提升
_exponential的精度新增了对池化模型的初步支持。现在支持 Bert 基础模型,如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3。 #229
模型#
其他#
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选版本发布。
vLLM Ascend 插件(vllm-ascend)是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受到 vLLM 的最新功能和改进。
请参阅官方文档开始您的体验之旅。请注意,这是一个候选发布版本,可能会有一些漏洞或问题。我们非常欢迎您在这里提交反馈和建议。
亮点#
核心#
其他#
已知问题#
此版本依赖于尚未发布的 torch_npu 版本。该版本已集成在官方容器镜像中。如果您使用的是非容器环境,请手动安装。
在运行 vllm-ascend 时,会显示类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不会影响任何功能和性能,你可以直接忽略它。这个问题已在此 PR 中修复,并很快会在 v0.7.3 版本中包含。在运行 vllm-ascend 时,会显示类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,实际应该为# NPU blocks:。这实际上不会影响任何功能和性能,你可以忽略它。该问题已在这个 PR 中修复,并将在 v0.7.3 版本中包含。