Minitron-8B-Base

Minitron-8B-Base#

简介#

发布的 Minitron-8B-Base 是由 NVIDIA 开发的轻量级、高效的大型语言模型。它专为通用文本生成和推理任务而设计，可通过 vllm-ascend 与 vLLM 一起部署，在昇腾 NPU 硬件上进行在线服务和评估。

本文档描述了该模型的主要验证步骤，包括支持的功能、环境准备、单节点部署、功能验证以及在 GSM8K 基准测试上的准确性评估。

环境准备#

模型权重#

Minitron-8B-Base (BF16 版本)：需要 1 个 Ascend 910B (配备 1 x 64G NPU)。下载模型权重

建议将模型权重放置在共享缓存目录中，例如 /root/.cache/，或本地模型路径，如 /data/vllm-workspace/models/Minitron-8B-Base。

安装#

Minitron-8B-Base 可以在兼容的运行时环境中与 vllm-ascend 一起部署。

您可以使用官方的 docker 镜像进行部署：

export IMAGE=quay.io/ascend/vllm-ascend:|vllm_ascend_version|
docker run --rm \
  --name vllm-ascend \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /root/.cache:/root/.cache \
  -v /data/vllm-workspace/models:/data/vllm-workspace/models \
  -p 8000:8000 \
  -it $IMAGE bash

如果您不想使用 docker 镜像，也可以从源代码构建：

从源代码安装 vllm-ascend，请参考安装指南。

部署#

使用以下命令启动在线服务：

vllm serve "nv-community/Minitron-8B-Base" \
  --served-model-name minitron-8b-base \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9 \
  --enforce-eager \
  --port 8000

功能验证#

服务器启动后，您可以使用一个简单的提示词查询模型：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "minitron-8b-base",
    "prompt": "Question: If a train travels 60 miles in 2 hours, what is its average speed in miles per hour?\nAnswer:",
    "max_tokens": 64,
    "temperature": 1.0
  }'

有效的响应表明模型部署正确，并且能够生成文本输出。

准确性评估#

使用 GSM8K 数据集评估 Minitron-8B-Base 的推理能力。

当前的评估设置如下：

数据集：gsm8k
数据划分：test
样本数量：1000
少样本设置：5-shot
apply_chat_template：False
fewshot_as_multiturn：False

当前的评估结果如下：

类别	数据集	指标	结果
准确性	gsm8k / test	总样本数	1000
准确性	gsm8k / test	exact_match,strict-match	0.5436
准确性	gsm8k / test	exact_match,flexible-extract	0.5451

指标说明#

exact_match,strict-match：只有严格匹配预期最终答案提取格式的预测才被计为正确。
exact_match,flexible-extract：使用更灵活的答案提取规则评估预测，只要最终的数字答案正确，允许微小的格式差异。

性能#

基准结果#

Minitron-8B-Base 可以通过 vllm-ascend 部署，用于在线推理和基准评估。实际吞吐量和延迟取决于硬件资源、提示词长度、输出长度、并发量和运行时配置。

备注#

本文档侧重于 GSM8K 上的功能验证和基准准确性。建议对以下方面进行进一步的基准测试：

请求延迟
并发下的吞吐量
长上下文推理
内存利用率
持续服务负载下的稳定性