跳转至主要内容
Ctrl+K

You are viewing the latest developer preview docs. Click here to view docs for the latest stable release(v0.18.0).

vllm-ascend - Home vllm-ascend - Home

快速开始

  • 快速入门
  • 安装
  • 模型教程
    • Qwen3-Dense(Qwen3-0.6B/8B/32B)
    • Qwen-VL-Dense(Qwen3-VL-2B/4B/8B/32B)
    • Qwen3-30B-A3B
    • Qwen3-235B-A22B
    • Qwen3-VL-30B-A3B-Instruct
    • Qwen3-VL-235B-A22B-Instruct
    • Qwen3-Coder-30B-A3B
    • Qwen3-Embedding
    • Qwen3-VL-Embedding
    • Qwen3-Reranker
    • Qwen3-VL-Reranker
    • Qwen3-8B-W4A8
    • Qwen3-32B-W4A4
    • Qwen3-Next
    • Qwen3-Omni-30B-A3B-Thinking
    • Qwen3.5-27B
    • Qwen3.5-397B-A17B
    • DeepSeek-V3/3.1
    • DeepSeek-V3.2
    • DeepSeek-R1
    • DeepSeek-OCR-2
    • GLM-4.5/4.6/4.7
    • GLM-5/GLM-5.1
    • Kimi-K2-Thinking
    • Kimi-K2.5
    • PaddleOCR-VL
    • MiniMax-M2.5
    • Hunyuan-A13B-Instruct
    • Hy3-preview
    • Minitron-8B-Base
    • LLaVA-OneVision-Qwen2-0.5B-OV
    • gpt-oss-120b
    • Mixtral-8x7B-Instruct-v0.1
    • Qwen3-ASR-1.7B
    • Qwen2.5-Math-RM-72B
  • 特性教程
    • 基于 Mooncake 多实例的 PD 共置部署
    • 预填充-解码分离部署(Qwen2.5-VL)
    • 预填充-解码分离部署(Deepseek)
    • 长序列上下文并行(Qwen3-235B-A22B)
    • 长序列上下文并行(Deepseek)
    • 动态分块流水线并行 (DeepSeek-V3.1)
    • 后缀投机解码
    • Ray 分布式部署(Qwen3-235B-A22B)
  • 硬件教程
    • Atlas 300I DUO
  • 常见问题

用户指南

  • 特性与模型
    • 支持的模型
    • 支持的功能
    • 特性×特性
  • 配置指南
    • 环境变量
    • 附加配置
  • 特性指南
    • 图模式指南
    • CPU 绑定
    • AI QoS特性
    • 量化指南
    • 睡眠模式指南
    • 结构化输出指南
    • LoRA 适配器指南
    • 专家负载均衡 (EPLB)
    • 网络加载器指南
    • RFork 指南
    • 多Token预测(MTP)
    • 动态批处理
    • 分离式编码器
    • Ascend Store 部署指南
    • KV缓存CPU卸载指南
    • 外部数据并行
    • 大规模专家并行下的分布式 DP 服务端
    • UCM存储部署指南
    • 细粒度张量并行
    • 层间线性层分片指南
    • 推测解码指南
    • 上下文并行指南
    • 权重预取指南
    • 序列并行
    • 批次不变性
    • LMCache-Ascend 部署指南
    • 动态分块流水线并行
    • Flash Attention 3
  • 部署指南
    • 使用 Volcano Kthena
  • 版本说明

开发者指南

  • 贡献指南
    • 测试
    • Doc writing guide
    • 多节点测试
    • Nightly CI 测试
    • E2E CI 测试
  • 设计文档
    • vLLM Ascend 中的补丁
    • CPU 绑定
    • 为模型前向传播准备输入
    • 预填充-解码分离
    • 专家并行负载均衡器(EPLB)
    • ACL 图
    • KV 缓存池
    • 添加自定义 aclnn 算子
    • 上下文并行(CP)
    • 动态分块流水线并行 (CPP)
    • 量化适配指南
    • Npugraph_ex
  • 准确性
    • 使用 EvalScope
    • 使用 lm-eval
    • 使用 AISBench
    • 使用 OpenCompass
  • 性能与调试
    • 性能基准测试
    • 优化与调优
    • 服务性能分析指南
    • MSProbe 调试指南

社区

  • 治理
  • 维护者与贡献者
  • Issue 工作流指南
  • 版本管理策略
  • 用户案例
    • LLaMA-Factory
  • Repository
  • Suggest edit
  • .md

准确性

准确性#

准确性

  • 使用 EvalScope
  • 使用 lm-eval
  • 使用 AISBench
  • 使用 OpenCompass

上一页

Npugraph_ex

下一页

使用 EvalScope

作者: the vllm-ascend team

© Copyright 2025, vllm-ascend team.