跳转至主要内容
Ctrl+K

You are viewing the latest developer preview docs. Click here to view docs for the latest stable release(v0.18.0).

vllm-ascend - Home vllm-ascend - Home

快速开始

  • 快速入门
  • 安装
  • 模型教程
    • Qwen2.5-Omni-7B
    • Qwen2.5-7B
    • Qwen3-Dense(Qwen3-0.6B/8B/32B)
    • Qwen-VL-Dense (Qwen2.5VL-3B/7B, Qwen3-VL-2B/4B/8B/32B)
    • Qwen3-30B-A3B
    • Qwen3-235B-A22B
    • Qwen3-VL-30B-A3B-Instruct
    • Qwen3-VL-235B-A22B-Instruct
    • Qwen3-Coder-30B-A3B
    • Qwen3-Embedding
    • Qwen3-VL-Embedding
    • Qwen3-Reranker
    • Qwen3-VL-Reranker
    • Qwen3-8B-W4A8
    • Qwen3-32B-W4A4
    • Qwen3-Next
    • Qwen3-Omni-30B-A3B-Thinking
    • Qwen3.5-27B/Qwen3.6-27B
    • Qwen3.6-35B-A3B
    • Qwen3.5-397B-A17B
    • DeepSeek-V3/3.1
    • DeepSeek-V3.2
    • DeepSeek-V4-Flash
    • DeepSeek-V4-Pro
    • DeepSeek-R1
    • DeepSeek-OCR-2
    • GLM-4.5/4.6/4.7
    • GLM-5/GLM-5.1
    • Kimi-K2-Thinking
    • Kimi-K2.5
    • PaddleOCR-VL
    • MiniMax-M2
  • 功能教程
    • PD 共置与 Mooncake 多实例
    • 预填充-解码解耦架构 (Qwen2.5-VL)
    • 预填充-解码解耦部署 (Deepseek)
    • 长序列上下文并行 (Qwen3-235B-A22B)
    • Project-Id-Version: vllm-ascend Report-Msgid-Bugs-To: POT-Creation-Date: 2026-04-22 08:13+0000 PO-Revision-Date: YEAR-MO-DA HO:MI+ZONE Last-Translator: FULL NAME EMAIL@ADDRESS Language: zh_CN Language-Team: zh_CN [email protected] Plural-Forms: nplurals=1; plural=0; MIME-Version: 1.0 Content-Type: text/plain; charset=utf-8 Content-Transfer-Encoding: 8bit Generated-By: Babel 2.18.0
    • 后缀推测解码
    • Ray 分布式部署 (Qwen3-235B-A22B)
  • 硬件教程
    • Atlas 300I DUO
  • 常见问题解答

用户指南

  • 特性与模型
    • 支持的模型
    • 支持的功能
  • 配置指南
    • 环境变量
    • 附加配置
  • 特性指南
    • 图模式指南
    • CPU 绑定
    • 量化指南
    • 睡眠模式指南
    • 结构化输出指南
    • LoRA 适配器指南
    • 专家负载均衡 (EPLB)
    • Netloader 指南
    • RFork 指南
    • 多令牌预测 (MTP)
    • 动态批处理
    • 解耦编码器
    • Ascend Store 部署指南
    • 外部数据并行
    • 分布式数据并行服务器与大规模专家并行
    • UCM增强前缀缓存部署指南
    • 细粒度张量并行 (Fine-grained TP)
    • 层分片线性算子指南
    • 推测解码指南
    • 上下文并行指南
    • Npugraph_ex
    • 权重预取指南
    • 序列并行
    • 批次不变性
    • LMCache-Ascend 部署指南
  • 部署指南
    • 使用 Volcano Kthena
  • 版本说明

开发者指南

  • 贡献指南
    • 测试
    • 多节点测试
  • 设计文档
    • vLLM Ascend 中的补丁
    • CPU 绑定
    • 为模型前向传播准备输入
    • 解耦式预填充
    • 专家并行负载均衡器 (EPLB)
    • ACL 图
    • KV 缓存池
    • 添加自定义 aclnn 算子
    • 上下文并行 (CP)
    • 量化适配指南
    • Npugraph_ex
  • 准确性
    • 使用 EvalScope
    • 使用 lm-eval
    • 使用 AISBench
    • 使用 OpenCompass
  • 性能和调试
    • 性能基准测试
    • 优化与调优
    • 服务性能剖析指南
    • MSProbe 调试指南

社区

  • 治理
  • 提交者和贡献者
  • 版本管理策略
  • 用户案例
    • LLaMA-Factory
  • Repository
  • Suggest edit
  • .md

性能和调试

性能和调试#

性能和调试

  • 性能基准测试
  • 优化与调优
  • 服务性能剖析指南
  • MSProbe 调试指南

上一页

使用 OpenCompass

下一页

性能基准测试

作者: the vllm-ascend team

© Copyright 2025, vllm-ascend team.