Skip to main content
Back to top
Ctrl
+
K
You are viewing the latest stable docs.
快速开始
快速入门
安装
教程
单个NPU(Qwen3 8B)
单个NPU(Qwen2.5-VL 7B)
单个 NPU(Qwen2-Audio 7B)
单个NPU(Qwen3-Embedding-8B)
单 NPU(Qwen3 8B W4A8)
Prefill-Decode 解耦 Llmdatadist 验证(Qwen2.5-VL)
多 NPU(Qwen3-Next)
多-NPU(QwQ 32B)
多NPU(Pangu Pro MoE)
多NPU(Qwen3-30B-A3B)
多NPU(QwQ 32B W8A8)
单节点(Atlas 300I 系列)
多节点(DeepSeek V3.2)
多节点分布式处理(DeepSeek)
多节点数据并行(Kimi-K2)
多节点数据并行(Qwen3-VL-235B-A22B)
预填充-解码分离架构的 Llmdatadist 验证(Qwen)
预填充-解码分离架构的 Mooncake 验证(Qwen)
多节点 Ray(Qwen / Qwen3-235B-A22B)
常见问题解答
用户指南
特性与模型
支持的模型
支持的功能
配置指南
环境变量
附加配置
功能指南
图模式指南
量化指南
睡眠模式指南
结构化输出指南
LoRA 适配器指南
专家负载均衡 (EPLB)
Mooncacke Store Deployment Guide
发布说明
开发者指南
贡献
测试
功能指南
在 vLLM Ascend 中的补丁
为模型前向传播准备输入
解耦预填充
专家并行负载均衡器 (EPLB)
多 Token 预测 (MTP)
ACL图
KV Cache 池 (KV Cache Pool)
添加自定义 aclnn 算子
准确性
使用 EvalScope
使用 lm-eval
使用 OpenCompass
准确性报告
deepseek-ai/DeepSeek-V2-Lite
Qwen/Qwen2.5-VL-7B-Instruct
Qwen/Qwen3-30B-A3B
Qwen/Qwen3-8B-Base
性能
性能基准
配置执行持续时间
优化与调优
新模型
添加新模型
添加新的多模态模型
社区
治理
维护者和贡献者
版本管理策略
用户故事
LLaMA-Factory
Repository
Suggest edit
.md
.pdf
准确性
准确性
#
准确性
使用 EvalScope
使用 lm-eval
使用 OpenCompass
准确性报告