服务性能剖析指南#

在推理服务过程中,有时需要监控推理服务框架的内部执行流程以定位性能问题。通过采集关键流程的起止时间戳、识别关键函数或迭代、记录关键事件并收集各类信息,可以快速定位性能瓶颈。

本指南将引导您完成从 vLLM-Ascend 服务框架和算子收集性能数据的过程。它涵盖了从准备、采集、分析到可视化的完整工作流程,帮助您快速上手性能采集工具。

以下提供两种性能采集方案:Ascend PyTorch Profiler 和 MS Service Profiler。您可以根据实际需求选择合适的工具进行性能分析和问题排查。

方案对比#

特性

Ascend PyTorch Profiler

MS Service Profiler

安装方式

内置,无需额外安装

需要通过 pip 安装 msserviceprofiler

采集粒度

PyTorch 算子级别

服务框架函数级别

控制方式

API 请求控制

配置文件控制

适用场景

模型算子性能分析

服务框架工作流分析

数据格式

ascend_pt 格式

Chrome Tracing + CSV

主要优势

算子级性能分析

服务框架工作流可视化

快速选择指南#


Ascend PyTorch Profiler#

0.安装与配置#

无需安装额外包;可通过命令行配置启用。目前 vLLM 默认启用 python 调用栈,这会显著增加采集的性能数据量。如果您不希望采集 python 调用栈,可以使用 torch_profiler_with_stack=false 禁用它。

1.采集准备#

启动在线服务,并设置 --profiler-config 参数来控制性能文件的保存路径。参数设置后,采集功能即被启用。

VLLM_PROMPT_SEQ_BUCKET_MAX=128
VLLM_PROMPT_SEQ_BUCKET_MIN=128
python3 -m vllm.entrypoints.openai.api_server \
--port 8080 \
--model "facebook/opt-125m" \
--tensor-parallel-size 1 \
--max-num-seqs 128 \
--profiler-config '{"profiler": "torch", "torch_profiler_dir": "./vllm_profile", "torch_profiler_with_stack": false}' \
--dtype bfloat16 \
--max-model-len 256

注意:2026年1月19日:vLLM 主线已弃用 VLLM_TORCH_PROFILER_DIR 环境变量。相关 PR 使用 vLLM Ascend 主线代码收集性能剖析器数据时,请记住使用 --profiler-config(在线)参数或 profiler_config(离线)参数。

2.开始采集#

性能采集通过发送 API 请求来控制。您可以在实际业务数据稳定后开始采集,采集几秒后停止;或者可以先开始采集,然后发送业务请求,最后停止。

发送以下请求以启动性能剖析服务:

curl -X POST http://localhost:8080/start_profile

发送以下请求以停止性能剖析服务:

curl -X POST http://localhost:8080/stop_profile

3.发送请求#

根据您的实际业务数据发送请求。发送请求后,停止性能剖析服务,数据将自动保存到先前配置的路径:

curl http://localhost:8080/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "facebook/opt-125m",
    "prompt": "San Francisco is a",
    "max_tokens": 7,
    "temperature": 0
}'

curl -X POST http://localhost:8080/stop_profile

4.分析数据#

导航到 ./vllm_profile 目录并找到生成的 *ascend_pt 文件夹。在检查性能剖析数据之前,需要先分析此文件夹。

from torch_npu.profiler.profiler import analyse
analyse("./vllm_profile/localhost.localdomain_*_ascend_pt/")

5.查看结果#

分析后,*ascend_pt 目录将包含许多文件,主要分析重点是 ASCEND_PROFILER_OUTPUT 文件夹。此目录将包含以下文件:

  • analysis.db:数据库格式的性能数据

  • api_statistic.csv:API 调用统计

  • ascend_pytorch_profiler_0.db:数据库格式的性能数据

  • kernel_details.csv:内核级相关数据

  • operator_details.csv:算子级相关数据

  • op_statistic.csv:算子利用率数据

  • step_trace_time.csv:调度数据

  • trace_view.json:Chrome 追踪格式数据,可在 MindStudio Insight 中打开

↑ 返回顶部


MS Service Profiler#

0.安装#

使用 pip 安装 msserviceprofiler 包:

pip install msserviceprofiler==1.2.2

1.准备#

在启动服务之前,请设置环境变量 SERVICE_PROF_CONFIG_PATH 指向性能剖析配置文件,并设置环境变量 PROFILING_SYMBOLS_PATH 来指定需要导入的符号的 YAML 配置文件。之后,根据您的部署方式启动 vLLM 服务。

cd ${path_to_store_profiling_files}
# Set environment variable
export SERVICE_PROF_CONFIG_PATH=ms_service_profiler_config.json
export PROFILING_SYMBOLS_PATH=service_profiling_symbols.yaml

# Start vLLM service
vllm serve Qwen/Qwen2.5-0.5B-Instruct &

其中 ms_service_profiler_config.json 为性能剖析配置文件。若指定路径下不存在该文件,将自动生成一份默认配置。若有需要,可参照下文 性能剖析配置文件 章节提前进行自定义配置。

service_profiling_symbols.yaml 为需要导入的埋点配置文件。你也可以选择不设置环境变量 PROFILING_SYMBOLS_PATH,此时将使用默认的配置文件;若你指定的路径下不存在该文件,系统同样会在你指定的路径生成一份配置文件以便后续修改。可参考 点位配置文件说明 一节进行自定义。

2.开启性能数据采集#

将配置文件ms_service_profiler_config.json中的 enable 字段由 0 修改为 1,即可开启性能数据采集的开关,可以通过执行下面sed指令完成采集服务的开启:

sed -i 's/"enable":\s*0/"enable": 1/' ./ms_service_profiler_config.json

3.发送请求#

根据实际采集需求选择请求发送方式:

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json"  \
    -d '{
         "model": "Qwen/Qwen2.5-0.5B-Instruct",
        "prompt": "Beijing is a",
        "max_tokens": 5,
        "temperature": 0
}' | python3 -m json.tool

4.分析数据#

# xxxx-xxxx is the directory automatically created based on vLLM startup time
cd /root/.ms_server_profiler/xxxx-xxxx

# Analyze data
msserviceprofiler analyze --input-path=./ --output-path output

5.查看结果#

解析完成后,output 目录下会生成:

  • chrome_tracing.json:Chrome 追踪格式数据,可在 MindStudio Insight 中打开。

  • profiler.db:数据库格式的性能数据。

  • request.csv:请求相关数据。

  • request_summary.csv:请求总体统计指标。

  • kvcache.csv:KV Cache 相关数据。

  • batch.csv:批次调度相关数据。

  • batch_summary.csv:批次调度总体统计指标。

  • service_summary.csv:服务化维度总体统计指标。