服务性能剖析指南

服务性能剖析指南#

在推理服务过程中，有时需要监控推理服务框架的内部执行流程以定位性能问题。通过采集关键流程的起止时间戳、识别关键函数或迭代、记录关键事件并收集各类信息，可以快速定位性能瓶颈。

本指南将引导您完成从 vLLM-Ascend 服务框架和算子收集性能数据的过程。它涵盖了从准备、采集、分析到可视化的完整工作流程，帮助您快速上手性能采集工具。

以下提供两种性能采集方案：Ascend PyTorch Profiler 和 MS Service Profiler。您可以根据实际需求选择合适的工具进行性能分析和问题排查。

方案对比#

特性	Ascend PyTorch Profiler	MS Service Profiler
安装方式	内置，无需额外安装	需要通过 pip 安装 msserviceprofiler
采集粒度	PyTorch 算子级别	服务框架函数级别
控制方式	API 请求控制	配置文件控制
适用场景	模型算子性能分析	服务框架工作流分析
数据格式	ascend_pt 格式	Chrome Tracing + CSV
主要优势	算子级性能分析	服务框架工作流可视化

Ascend PyTorch Profiler#

0.安装与配置#

无需安装额外包；可通过命令行配置启用。目前 vLLM 默认启用 python 调用栈，这会显著增加采集的性能数据量。如果您不希望采集 python 调用栈，可以使用 torch_profiler_with_stack=false 禁用它。

1.采集准备#

启动在线服务，并设置 --profiler-config 参数来控制性能文件的保存路径。参数设置后，采集功能即被启用。

VLLM_PROMPT_SEQ_BUCKET_MAX=128
VLLM_PROMPT_SEQ_BUCKET_MIN=128
python3 -m vllm.entrypoints.openai.api_server \
--port 8080 \
--model "facebook/opt-125m" \
--tensor-parallel-size 1 \
--max-num-seqs 128 \
--profiler-config '{"profiler": "torch", "torch_profiler_dir": "./vllm_profile", "torch_profiler_with_stack": false}' \
--dtype bfloat16 \
--max-model-len 256

注意：2026年1月19日：vLLM 主线已弃用 VLLM_TORCH_PROFILER_DIR 环境变量。相关 PR 使用 vLLM Ascend 主线代码收集性能剖析器数据时，请记住使用 --profiler-config（在线）参数或 profiler_config（离线）参数。

2.开始采集#

性能采集通过发送 API 请求来控制。您可以在实际业务数据稳定后开始采集，采集几秒后停止；或者可以先开始采集，然后发送业务请求，最后停止。

发送以下请求以启动性能剖析服务：

curl -X POST http://localhost:8080/start_profile

发送以下请求以停止性能剖析服务：

curl -X POST http://localhost:8080/stop_profile

3.发送请求#

根据您的实际业务数据发送请求。发送请求后，停止性能剖析服务，数据将自动保存到先前配置的路径：

curl http://localhost:8080/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "facebook/opt-125m",
    "prompt": "San Francisco is a",
    "max_tokens": 7,
    "temperature": 0
}'

curl -X POST http://localhost:8080/stop_profile

4.分析数据#

导航到 ./vllm_profile 目录并找到生成的 *ascend_pt 文件夹。在检查性能剖析数据之前，需要先分析此文件夹。

from torch_npu.profiler.profiler import analyse
analyse("./vllm_profile/localhost.localdomain_*_ascend_pt/")

5.查看结果#

分析后，*ascend_pt 目录将包含许多文件，主要分析重点是 ASCEND_PROFILER_OUTPUT 文件夹。此目录将包含以下文件：

analysis.db：数据库格式的性能数据
api_statistic.csv：API 调用统计
ascend_pytorch_profiler_0.db：数据库格式的性能数据
kernel_details.csv：内核级相关数据
operator_details.csv：算子级相关数据
op_statistic.csv：算子利用率数据
step_trace_time.csv：调度数据
trace_view.json：Chrome 追踪格式数据，可在 MindStudio Insight 中打开

↑ 返回顶部

MS Service Profiler#

0.安装#

使用 pip 安装 msserviceprofiler 包：

pip install msserviceprofiler==1.2.2

1.准备#

在启动服务之前，请设置环境变量 SERVICE_PROF_CONFIG_PATH 指向性能剖析配置文件，并设置环境变量 PROFILING_SYMBOLS_PATH 来指定需要导入的符号的 YAML 配置文件。之后，根据您的部署方式启动 vLLM 服务。

cd ${path_to_store_profiling_files}
# Set environment variable
export SERVICE_PROF_CONFIG_PATH=ms_service_profiler_config.json
export PROFILING_SYMBOLS_PATH=service_profiling_symbols.yaml

# Start vLLM service
vllm serve Qwen/Qwen2.5-0.5B-Instruct &

其中 ms_service_profiler_config.json 为性能剖析配置文件。若指定路径下不存在该文件，将自动生成一份默认配置。若有需要，可参照下文 性能剖析配置文件 章节提前进行自定义配置。

service_profiling_symbols.yaml 为需要导入的埋点配置文件。你也可以选择不设置环境变量 PROFILING_SYMBOLS_PATH，此时将使用默认的配置文件；若你指定的路径下不存在该文件，系统同样会在你指定的路径生成一份配置文件以便后续修改。可参考 点位配置文件说明 一节进行自定义。

2.开启性能数据采集#

将配置文件ms_service_profiler_config.json中的 enable 字段由 0 修改为 1，即可开启性能数据采集的开关，可以通过执行下面sed指令完成采集服务的开启：

sed -i 's/"enable":\s*0/"enable": 1/' ./ms_service_profiler_config.json

3.发送请求#

根据实际采集需求选择请求发送方式：

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json"  \
    -d '{
         "model": "Qwen/Qwen2.5-0.5B-Instruct",
        "prompt": "Beijing is a",
        "max_tokens": 5,
        "temperature": 0
}' | python3 -m json.tool

4.分析数据#

# xxxx-xxxx is the directory automatically created based on vLLM startup time
cd /root/.ms_server_profiler/xxxx-xxxx

# Analyze data
msserviceprofiler analyze --input-path=./ --output-path output

5.查看结果#

解析完成后，output 目录下会生成：

chrome_tracing.json：Chrome 追踪格式数据，可在 MindStudio Insight 中打开。
profiler.db：数据库格式的性能数据。
request.csv：请求相关数据。
request_summary.csv：请求总体统计指标。
kvcache.csv：KV Cache 相关数据。
batch.csv：批次调度相关数据。
batch_summary.csv：批次调度总体统计指标。
service_summary.csv：服务化维度总体统计指标。

6.MS Service Profiler 相关附录#

6.1 采集配置文件说明#

采集配置文件用于控制性能数据采集的参数与行为。

配置文件格式#

配置文件为 JSON 格式，主要参数如下：

参数	说明	是否必选
enable	是否开启性能数据采集的开关： 0：关闭 1：开启默认值：0	是
prof_dir	采集到性能数据的存放路径，支持用户自定义。默认值：$HOME/.ms_service_profiler	否
profiler_level	数据采集等级。默认值为"INFO"，指普通级别的性能数据。	否
host_system_usage_freq	CPU和内存系统指标采集频率，默认关闭不采集。范围整数1~50，单位hz，表示每秒采集的次数。设置为-1时关闭采集该指标。说明：开启该功能可能占用较大内存	否
npu_memory_usage_freq	NPU Memory使用率指标的采集频率，默认关闭不采集。范围整数1~50，单位hz，表示每秒采集的次数。设置为-1时关闭采集该指标。说明：开启该功能可能占用较大内存	否
acl_task_time	开启采集算子下发耗时、算子执行耗时数据的开关，取值为： 0：关闭。默认值，配置为0或其他非法值均表示关闭。 1：开启。该功能开启时调用aclprofCreateConfig接口的ACL_PROF_TASK_TIME_L0参数。 2：开启基于MSPTI接口的数据落盘。该功能开启时调用MSPTI接口进行性能数据采集，需要配置如下环境变量：export LD_PRELOAD=$ASCEND_TOOLKIT_HOME/lib64/libmspti.so	否
acl_prof_task_time_level	设置性能数据采集的Level等级和时长，取值为： L0：Level0等级，表示采集算子下发耗时、算子执行耗时数据。与L1相比，由于不采集算子基本信息数据，采集时性能开销较小，可更精准统计相关耗时数据。 L1：Level1等级，采集AscendCL接口的性能数据，包括Host与Device之间、Device间的同步异步内存复制时延；采集算子下发耗时、算子执行耗时数据以及算子基本信息数据，提供更全面的性能分析数据。 time：采集时长，取值范围为1~999的正整数，单位s。默认未配置本参数，表示采集L0数据，且采集到程序执行结束。配置其他非法值时取默认值。采集的Level等级和时长可同时配置，例如"acl_prof_task_time_level": "L1,10"。	否
api_filter	对性能数据进行过滤，配置该参数可自定义采集配置的API性能数据，例如传入"matmul"会落盘所有API数据中name字段包含matmul的性能数据。str类型，区分大小写，多个不同的筛选目标用"；"隔开，默认为空，表示落盘所有数据。仅当acl_task_time参数值为2时生效。	否
kernel_filter	对性能数据进行过滤，配置该参数可自定义采集配置的kernel性能数据，例如传入"matmul"会落盘所有kernel数据中name字段包含matmul的性能数据。str类型，区分大小写，多个不同的筛选目标用"；"隔开，默认为空，表示落盘所有数据。仅当acl_task_time参数值为2时生效。	否
timelimit	设置服务化性能数据采集的时长，配置该参数后，采集进程将在运行指定的时间后自动停止，取值范围为0~7200的整数，单位s，默认值0（表示不限制采集时间）	否
domain	设置采集指定domain域下的性能数据，减少采集数据量。输入参数为字符串格式，英文分号作为分隔符，区分大小写，例如："Request; KVCache"。默认为空，表示采集当前所有domain域内性能数据。当前已有domain域为：Request、KVCache、ModelExecute、BatchSchedule、Communication。说明：若指定domain域不全，采集数据不满足解析输出件生成时，会有告警提示。查看表1	否

配置示例#

{
  "enable": 1,
  "prof_dir": "vllm_prof",
  "profiler_level": "INFO",
  "acl_task_time": 0,
  "acl_prof_task_time_level": "",
  "timelimit": 0
}

6.2 点位配置文件说明#

点位配置文件用于定义需要采集的函数/方法，支持灵活配置与自定义属性采集。

6.2.1 文件命名与加载#

默认加载路径：~/.config/vllm_ascend/service_profiling_symbols.MAJOR.MINOR.PATCH.yaml（随已安装的 vllm 版本变化）

如需自定义采集点，推荐通过设置环境变量PROFILING_SYMBOLS_PATH，将一份点位配置文件复制到工作目录进行修改使用。

6.2.2 配置字段说明#

字段	说明	示例
symbol	Python 导入路径 + 属性链	`"vllm.v1.core.kv_cache_manager:KVCacheManager.free"`
handler	处理函数类型	`"timer"`（默认）或 `"pkg.mod:func"`（自定义）
domain	埋点域标识	`"KVCache"`, `"ModelExecute"`
name	事件名称	`"EngineCoreExecute"`
min_version	版本上限约束	`"0.9.1"`
max_version	版本下限约束	`"0.11.0"`
attributes	自定义属性采集	仅支持 `"timer"` 处理程序。请参阅下方章节

示例#

示例 1：自定义处理程序

- symbol: vllm.v1.core.kv_cache_manager:KVCacheManager.free
  handler: vllm_profiler.config.custom_handler_example:kvcache_manager_free_example_handler
  domain: Example
  name: example_custom

示例 2：默认计时器

- symbol: vllm.v1.engine.core:EngineCore.execute_model
  domain: ModelExecute
  name: EngineCoreExecute

示例 3：版本约束

- symbol: vllm.v1.executor.abstract:Executor.execute_model
  min_version: "0.9.1"
  # No handler specified -> default timer

自定义属性采集#

attributes 字段支持灵活的自定义属性采集，并允许对函数参数和返回值进行操作与转换。

基本语法#

参数访问：直接使用参数名，例如 input_ids
返回值访问：使用 return 关键字
管道操作：使用 | 连接多个操作
属性访问：使用 attr 访问对象属性

示例#

- symbol: vllm_ascend.worker.model_runner_v1:NPUModelRunner.execute_model
  name: ModelRunnerExecuteModel
  domain: ModelExecute
  attributes:
  - name: device
    expr: args[0] | attr device | str
  - name: dp
    expr: args[0] | attr dp_rank | str
  - name: batch_size
    expr: args[0] | attr input_batch | attr _req_ids | len

表达式说明#

len(input_ids)：获取参数 input_ids 的长度。
len(return) | str：获取返回值的长度并转换为字符串（等价于 str(len(return))）。
return[0] | attr input_ids | len：获取返回值中第一个元素的 input_ids 属性长度。

支持的表达式类型#

基础操作：len(), str(), int(), float()
索引访问：return[0], return['key']
属性访问：return | attr attr_name
管道组合：使用 | 链接操作

高级示例#

attributes:
  # Get tensor shape
  - name: tensor_shape
    expr: input_tensor | attr shape | str
  
  # Get specific value from a dict
  - name: batch_size
    expr: kwargs['batch_size']
  
  # Conditional expression (requires custom handler support)
  - name: is_training_mode
    expr: training | bool
  
  # Complex data processing
  - name: processed_data_len
    expr: data | attr items | len | str

自定义处理程序#

当 handler 指定自定义函数时，该函数必须符合以下签名：

def custom_handler(original_func, this, *args, **kwargs):
    """
    Custom handler
    
    Args:
        original_func: the original function object
        this: the bound object (for methods)
        *args: positional arguments
        **kwargs: keyword arguments
    
    Returns:
        processing result
    """
    # Custom logic
    pass

如果自定义处理程序导入失败，系统将自动回退到默认计时器模式。

↑ 返回顶部