Qwen3-ASR-1.7B#
简介#
发布的Qwen3-ASR-1.7B是Qwen团队开发的轻量级高性能自动语音识别(ASR)模型。它在中英文多场景语音、中文方言、多语言及歌唱场景中提供行业领先的识别精度,原生支持长音频和流式推理,并针对Ascend NPU硬件进行了深度优化。
本文档将展示该模型的主要验证步骤,包括支持特性、特性配置、环境准备、单节点部署、精度和性能评估。
环境准备#
模型权重#
Qwen3-ASR-1.7B(BF16版本):需要1个Ascend 910B(1 x 64G NPU)。下载模型权重
建议将模型权重下载到多节点共享目录,例如/root/.cache/
安装#
Qwen3-ASR-1.7B在vllm-ascend中得到支持。
您可以直接使用我们的官方docker镜像运行Qwen3-ASR-1.7B。
export IMAGE=quay.io/ascend/vllm-ascend:v0.20.2rc1
docker run --rm \
--name vllm-ascend \
--shm-size=1g \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v /data/vllm-workspace/models:/data/vllm-workspace/models \
-p 8000:8000 \
-it $IMAGE bash
此外,如果您不想像上面那样使用docker镜像,也可以从源码构建所有内容:
从源码安装
vllm-ascend,请参考安装。
部署#
vllm serve "Qwen/Qwen3-ASR-1.7B" \
--tensor-parallel-size 1 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9 \
--enforce-eager \
--port 8000
功能验证#
服务器启动后,您可以使用输入提示词查询模型:
curl http://localhost:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"messages": [
{"role": "user", "content": [
{"type": "audio_url",
"audio_url":
{"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
]}
]
}'
精度评估#
处理完所有样本后,使用以下指标衡量转录质量:
WER(词错误率)用于词级识别精度
CER(字符错误率)用于字符级识别精度
当前评估结果为:
类别 |
数据集 |
指标 |
结果 |
|---|---|---|---|
精度 |
librispeech_asr / clean / test |
总样本数 |
500 |
精度 |
librispeech_asr / clean / test |
成功 |
500 |
精度 |
librispeech_asr / clean / test |
失败 |
0 |
精度 |
librispeech_asr / clean / test |
WER |
0.035 |
性能#
基线结果#
在当前评估中,Qwen3-ASR-1.7B在约57秒内处理了100个样本,在当前在线服务配置下实现了1.73 samples/s的平均吞吐量。
类别 |
数据集 |
指标 |
结果 |
|---|---|---|---|
性能 |
LibriSpeech test/clean (100个样本) |
总样本数 |
100 |
性能 |
LibriSpeech test/clean (100个样本) |
总运行时间 |
57秒 |
性能 |
LibriSpeech test/clean (100个样本) |
平均吞吐量 |
1.73 samples/s |
备注#
该结果反映了端到端服务性能,包括音频预处理、请求构建、API通信、推理和响应解析。实际性能可能因硬件、并发数、音频长度和部署配置而异。
建议进一步对延迟分布、并发吞吐量、长音频场景和系统资源利用率进行基准测试。