Qwen2.5-Math-RM-72B

Qwen2.5-Math-RM-72B#

简介#

Qwen2.5-Math-RM-72B 是一个720亿参数的奖励模型，专为数学推理和评估设计。它是阿里云Qwen 2.5系列的一部分，专门针对数学问题解答的评分和排序进行了优化。该模型支持最大128K token的上下文窗口，在数学计算、逐步推理评估和解答质量评估方面具有增强能力。

本文档提供了该模型完整部署和验证的详细工作流程，包括支持特性、环境准备、单节点部署、功能验证和性能评估。

Qwen2.5-Math-RM-72B 模型自 vllm-ascend:v0.9.0 版本起得到支持。

支持特性#

请参考支持特性获取模型的支持特性矩阵。

请参考特性指南获取特性的配置信息。

环境准备#

模型权重#

Qwen2.5-Math-RM-72B (BF16版本)：
- 启用CPU卸载：至少需要1张Atlas 910B4 (32G × 1) 或更高规格的加速卡
- 不启用CPU卸载：至少需要4张Atlas 910B4 (32G × 4) 或更高规格的加速卡下载模型权重

建议将模型权重下载到本地目录（例如 ./Qwen2.5-Math-RM-72B/），以便在部署时快速访问。

安装#

您可以使用我们的官方Docker镜像直接运行 Qwen2.5-Math-RM-72B。

这些版本支持多NPU部署，允许模型利用所有可用的NPU设备（例如4个NPU）以获得更好的性能。

根据您的机器类型选择镜像，并在节点上启动Docker镜像，请参考使用Docker。

export IMAGE=quay.io/ascend/vllm-ascend:v0.20.2rc1
docker run --rm \
    --device /dev/davinci0 \
    --device /dev/davinci1 \
    --device /dev/davinci2 \
    --device /dev/davinci3 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /root/.cache:/root/.cache \
    -it $IMAGE bash

部署#

单节点部署#

Qwen2.5-Math-RM-72B 支持在910B4平台上进行单节点单卡部署。按照以下步骤启动推理服务：

准备模型权重：确保下载的模型权重存储在 ./Qwen2.5-Math-RM-72B/ 目录中。
创建并执行部署脚本（保存为 deploy.sh）：

#!/bin/sh
export ASCEND_RT_VISIBLE_DEVICES=0
export MODEL_PATH="Qwen/Qwen2.5-Math-RM-72B"

vllm serve ${MODEL_PATH} \
          --host 0.0.0.0 \
          --port 8000 \
          --served-model-name qwen2.5-math-rm-72b \
          --trust-remote-code \
          --max-model-len 32768 \
          --task reward

备注

--task reward 参数是必需的，用于以奖励模型模式运行模型以对数学解答进行评分。

功能验证#

启动服务后，使用 curl 请求验证功能：

curl http://localhost:8000/v1/reward \
    -H "Content-Type: application/json" \
    -d '{
        "model": "qwen2.5-math-rm-72b",
        "messages": [
            {"role": "system", "content": "You are a helpful math assistant."},
            {"role": "user", "content": "What is 2+2?"},
            {"role": "assistant", "content": "2+2 equals 4."}
        ]
    }'

有效的响应（例如 {"reward_score": 1.69}）表示部署成功。

批量奖励评分#

您还可以对多个回答进行评分以进行比较：

curl http://localhost:8000/v1/reward/batch \
    -H "Content-Type: application/json" \
    -d '{
  "model": "qwen2.5-math-rm-72b",
  "conversations": [
    [
      {"role": "system", "content": "You are a helpful math assistant."},
      {"role": "user", "content": "What is 2+2?"},
      {"role": "assistant", "content": "2+2 equals 4."}
    ],
    [
      {"role": "system", "content": "You are a helpful math assistant."},
      {"role": "user", "content": "What is 2+2?"},
      {"role": "assistant", "content": "2+2 equals 5."}
    ]
  ],
  "batch_rewards": [
    {
      "index": 0,
      "score": 9.85,
      "reasoning": "The answer is mathematically correct and concise."
    },
    {
      "index": 1,
      "score": 1.20,
      "reasoning": "The answer contains a factual mathematical error (2+2 is not 5)."
    }
  ]
}'