Skip to main content
Back to top
Ctrl
+
K
快速开始
快速入门
安装
教程
单个NPU(Qwen3 8B)
单个NPU(Qwen2.5-VL 7B)
单个 NPU(Qwen2-Audio 7B)
单个NPU(Qwen3-Embedding-8B)
Single-NPU (Qwen3 8B W4A8)
Prefill-Decode Disaggregation Llmdatadist Verification (Qwen2.5-VL)
Multi-NPU (Qwen3-Next)
多-NPU(QwQ 32B)
多NPU(Pangu Pro MoE)
多NPU(Qwen3-30B-A3B)
多NPU(QwQ 32B W8A8)
Single Node (Atlas 300I Series)
Multi-Node (DeepSeek V3.2)
多节点分布式处理(DeepSeek)
Multi-Node-DP (Kimi-K2)
Multi-Node-DP (Qwen3-VL-235B-A22B)
Prefill-Decode Disaggregation Llmdatadist Verification (Qwen)
Prefill-Decode Disaggregation Mooncake Verification (Qwen)
Multi-Node-Ray (Qwen/Qwen3-235B-A22B)
FAQs
用户指南
Features and Models
Supported Models
Supported Features
配置指南
环境变量
附加配置
功能指南
图模式指南
量化指南
睡眠模式指南
结构化输出指南
LoRA 适配器指南
Expert Load Balance (EPLB)
Release Notes
开发者指南
贡献
测试
功能指南
在 vLLM Ascend 中的补丁
Prepare inputs for model forwarding
Disaggregated-prefill
Expert Parallelism Load Balancer (EPLB)
Multi Token Prediction (MTP)
ACL Graph
KV Cache Pool
Adding a custom aclnn operation
准确性
使用 EvalScope
使用 lm-eval
使用 OpenCompass
准确性报告
deepseek-ai/DeepSeek-V2-Lite
Qwen/Qwen2.5-VL-7B-Instruct
Qwen/Qwen3-30B-A3B
Qwen/Qwen3-8B-Base
性能
性能基准
配置执行持续时间
Optimization and Tuning
新模型
添加新模型
Adding a New Multimodal Model
社区
治理
维护者和贡献者
Versioning Policy
User stories
LLaMA-Factory
Repository
Suggest edit
.md
.pdf
性能
性能
#
性能
性能基准
配置执行持续时间
Optimization and Tuning