跳转至主要内容
Ctrl+K

You are viewing the latest stable docs.

vllm-ascend - Home vllm-ascend - Home

快速开始

  • 快速入门
  • 安装
  • 教程
    • Qwen2.5-Omni-7B
    • Qwen2.5-7B
    • Qwen3-Dense (Qwen3-0.6B/8B/32B)
    • Qwen-VL-Dense (Qwen2.5VL-3B/7B, Qwen3-VL-2B/4B/8B/32B)
    • Qwen3-30B-A3B
    • Qwen3-235B-A22B
    • Qwen3-VL-235B-A22B-Instruct
    • Qwen3-Coder-30B-A3B
    • Qwen3-Embedding
    • Qwen3-Reranker
    • Qwen3-8B-W4A8
    • Qwen3-32B-W4A4
    • Qwen3-Next
    • Qwen3-Omni-30B-A3B-Thinking
    • DeepSeek-V3/3.1
    • DeepSeek-V3.2
    • DeepSeek-R1
    • DeepSeek-V4
    • GLM-4.5/4.6/4.7
    • Kimi-K2-Thinking
    • PaddleOCR-VL
    • PD-Colocated with Mooncake Multi-Instance
    • Prefill-Decode Disaggregation (Qwen2.5-VL)
    • Prefill-Decode Disaggregation (Deepseek)
    • Long-Sequence Context Parallel (Qwen3-235B-A22B)
    • 长序列上下文并行(Deepseek)
    • Ray分布式部署(Qwen3-235B-A22B)
    • Atlas 300I
  • 常见问题

用户指南

  • 特性与模型
    • 支持的模型
    • 支持的特性
  • 配置指南
    • 环境变量
    • 附加配置
  • 功能指南
    • 图模式
    • 量化指南
    • 睡眠模式
    • 结构化输出
    • LoRA适配器
    • 专家负载均衡
    • 网络加载器
    • 多Token预测(MTP)
    • 动态批处理
    • Ascend Store部署
    • 外部数据并行
    • 大规模专家并行的DP分布式部署
    • UCM增强的前缀缓存部署
    • 细粒度张量并行
    • 层间线性层分片
    • 推测解码
    • 上下文并行
  • 部署指南
    • 使用 Volcano Kthena
  • 版本说明

开发者指南

  • 贡献指南
    • 测试指南
    • 多节点测试
  • 功能指南
    • vLLM Ascend补丁说明
    • 模型前向计算输入准备
    • 解耦式预填充
    • 专家并行负载均衡器(EPLB)
    • ACL 图
    • KV缓存池
    • 添加自定义 aclnn 算子
    • 上下文并行 (CP)
    • 量化适配
  • 准确性
    • 使用 EvalScope
    • 使用 lm-eval
    • 使用 AISBench
    • 使用 OpenCompass
  • 性能与调试
    • 性能基准测试
    • 执行时长分析
    • 优化与调优
    • 服务性能分析指南
    • MSProbe 调试指南

社区

  • 管理
  • 维护者和贡献者
  • 版本管理策略
  • 用户案例
    • LLaMA-Factory
  • Repository
  • Suggest edit
  • .md

性能与调试

性能与调试#

性能与调试

  • 性能基准测试
  • 执行时长分析
  • 优化与调优
  • 服务性能分析指南
  • MSProbe 调试指南

上一页

使用 OpenCompass

下一页

性能基准测试

作者: the vllm-ascend team

© Copyright 2025, vllm-ascend team.