欢迎使用 vLLM Ascend 插件#
vLLM Ascend Plugin
vLLM Ascend 插件(vllm-ascend)是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。
该插件是 vLLM 社区推荐用于支持 Ascend 后端的方法。它遵循 [RFC]: Hardware pluggable 中提出的原则,提供了一个硬件可插拔接口,实现了 Ascend NPU 与 vLLM 集成的解耦。
通过使用 vLLM Ascend 插件,流行的开源模型,包括 Transformer 类、混合专家、嵌入式、多模态大模型等,都可以在 Ascend NPU 上无缝运行。