Minitron-8B-Base#
简介#
发布的 Minitron-8B-Base 是由 NVIDIA 开发的轻量级、高效的大型语言模型。它专为通用文本生成和推理任务而设计,可通过 vllm-ascend 与 vLLM 一起部署,在昇腾 NPU 硬件上进行在线服务和评估。
本文档描述了该模型的主要验证步骤,包括支持的功能、环境准备、单节点部署、功能验证以及在 GSM8K 基准测试上的准确性评估。
环境准备#
模型权重#
Minitron-8B-Base (BF16 版本):需要 1 个 Ascend 910B (配备 1 x 64G NPU)。下载模型权重
建议将模型权重放置在共享缓存目录中,例如 /root/.cache/,或本地模型路径,如 /data/vllm-workspace/models/Minitron-8B-Base。
安装#
Minitron-8B-Base 可以在兼容的运行时环境中与 vllm-ascend 一起部署。
您可以使用官方的 docker 镜像进行部署:
export IMAGE=quay.io/ascend/vllm-ascend:|vllm_ascend_version|
docker run --rm \
--name vllm-ascend \
--shm-size=1g \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v /data/vllm-workspace/models:/data/vllm-workspace/models \
-p 8000:8000 \
-it $IMAGE bash
如果您不想使用 docker 镜像,也可以从源代码构建:
从源代码安装
vllm-ascend,请参考 安装指南。
部署#
使用以下命令启动在线服务:
vllm serve "nv-community/Minitron-8B-Base" \
--served-model-name minitron-8b-base \
--tensor-parallel-size 1 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9 \
--enforce-eager \
--port 8000
功能验证#
服务器启动后,您可以使用一个简单的提示词查询模型:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "minitron-8b-base",
"prompt": "Question: If a train travels 60 miles in 2 hours, what is its average speed in miles per hour?\nAnswer:",
"max_tokens": 64,
"temperature": 1.0
}'
有效的响应表明模型部署正确,并且能够生成文本输出。
准确性评估#
使用 GSM8K 数据集评估 Minitron-8B-Base 的推理能力。
当前的评估设置如下:
数据集:
gsm8k数据划分:
test样本数量:
1000少样本设置:
5-shotapply_chat_template:Falsefewshot_as_multiturn:False
当前的评估结果如下:
类别 |
数据集 |
指标 |
结果 |
|---|---|---|---|
准确性 |
gsm8k / test |
总样本数 |
1000 |
准确性 |
gsm8k / test |
exact_match,strict-match |
0.5436 |
准确性 |
gsm8k / test |
exact_match,flexible-extract |
0.5451 |
指标说明#
exact_match,strict-match:只有严格匹配预期最终答案提取格式的预测才被计为正确。
exact_match,flexible-extract:使用更灵活的答案提取规则评估预测,只要最终的数字答案正确,允许微小的格式差异。
性能#
基准结果#
Minitron-8B-Base 可以通过 vllm-ascend 部署,用于在线推理和基准评估。实际吞吐量和延迟取决于硬件资源、提示词长度、输出长度、并发量和运行时配置。
备注#
本文档侧重于 GSM8K 上的功能验证和基准准确性。建议对以下方面进行进一步的基准测试:
请求延迟
并发下的吞吐量
长上下文推理
内存利用率
持续服务负载下的稳定性