LoRA 适配器指南#
概述#
与 vLLM 类似,vllm-ascend 也支持 LoRA。用法及更多详情可参见 vLLM 官方文档。
你也可以参考 Supported Models 来查找哪些模型在 vLLM 中支持 LoRA。
现在可以在 ACLGraph 模式下运行 LoRA。请参阅 Graph Mode Guide 以获得更好的 LoRA 性能。
示例#
这里提供一个简单的 LoRA 示例,默认启用 ACLGraph 模式。
vllm serve meta-llama/Llama-2-7b \
--enable-lora \
--lora-modules '{"name": "sql-lora", "path": "/path/to/lora", "base_model_name": "meta-llama/Llama-2-7b"}'
自定义 LoRA 操作#
我们已经实现了与 LoRA 相关的 AscendC 操作,例如 bgmv_shrink、bgmv_expand、sgmv_shrink 和 sgmv_expand。你可以在 vllm-ascend 仓库 的 "csrc/kernels" 目录下找到它们。
当你安装 vllm 和 vllm-ascend 时,上述操作会自动编译并安装。如果你在运行 vllm-ascend 时不想使用 AscendC 操作,应设置 COMPILE_CUSTOM_KERNELS=0 并重新安装 vllm-ascend。有关安装和编译的更多说明,请参阅 installation guide。