Minitron-8B-Base#

简介#

发布的 Minitron-8B-Base 是由 NVIDIA 开发的轻量级、高效的大型语言模型。它专为通用文本生成和推理任务而设计,可通过 vllm-ascend 与 vLLM 一起部署,在昇腾 NPU 硬件上进行在线服务和评估。

本文档描述了该模型的主要验证步骤,包括支持的功能、环境准备、单节点部署、功能验证以及在 GSM8K 基准测试上的准确性评估。

环境准备#

模型权重#

Minitron-8B-Base (BF16 版本):需要 1 个 Ascend 910B (配备 1 x 64G NPU)。下载模型权重

建议将模型权重放置在共享缓存目录中,例如 /root/.cache/,或本地模型路径,如 /data/vllm-workspace/models/Minitron-8B-Base

安装#

Minitron-8B-Base 可以在兼容的运行时环境中与 vllm-ascend 一起部署。

您可以使用官方的 docker 镜像进行部署:

export IMAGE=quay.io/ascend/vllm-ascend:|vllm_ascend_version|
docker run --rm \
  --name vllm-ascend \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /root/.cache:/root/.cache \
  -v /data/vllm-workspace/models:/data/vllm-workspace/models \
  -p 8000:8000 \
  -it $IMAGE bash

如果您不想使用 docker 镜像,也可以从源代码构建:

  • 从源代码安装 vllm-ascend,请参考 安装指南

部署#

使用以下命令启动在线服务:

vllm serve "nv-community/Minitron-8B-Base" \
  --served-model-name minitron-8b-base \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9 \
  --enforce-eager \
  --port 8000

功能验证#

服务器启动后,您可以使用一个简单的提示词查询模型:

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "minitron-8b-base",
    "prompt": "Question: If a train travels 60 miles in 2 hours, what is its average speed in miles per hour?\nAnswer:",
    "max_tokens": 64,
    "temperature": 1.0
  }'

有效的响应表明模型部署正确,并且能够生成文本输出。

准确性评估#

使用 GSM8K 数据集评估 Minitron-8B-Base 的推理能力。

当前的评估设置如下:

  • 数据集:gsm8k

  • 数据划分:test

  • 样本数量:1000

  • 少样本设置:5-shot

  • apply_chat_templateFalse

  • fewshot_as_multiturnFalse

当前的评估结果如下:

类别

数据集

指标

结果

准确性

gsm8k / test

总样本数

1000

准确性

gsm8k / test

exact_match,strict-match

0.5436

准确性

gsm8k / test

exact_match,flexible-extract

0.5451

指标说明#

  • exact_match,strict-match:只有严格匹配预期最终答案提取格式的预测才被计为正确。

  • exact_match,flexible-extract:使用更灵活的答案提取规则评估预测,只要最终的数字答案正确,允许微小的格式差异。

性能#

基准结果#

Minitron-8B-Base 可以通过 vllm-ascend 部署,用于在线推理和基准评估。实际吞吐量和延迟取决于硬件资源、提示词长度、输出长度、并发量和运行时配置。

备注#

本文档侧重于 GSM8K 上的功能验证和基准准确性。建议对以下方面进行进一步的基准测试:

  • 请求延迟

  • 并发下的吞吐量

  • 长上下文推理

  • 内存利用率

  • 持续服务负载下的稳定性