Qwen3-ASR-1.7B#

简介#

发布的Qwen3-ASR-1.7B是Qwen团队开发的轻量级高性能自动语音识别(ASR)模型。它在中英文多场景语音、中文方言、多语言及歌唱场景中提供行业领先的识别精度,原生支持长音频和流式推理,并针对Ascend NPU硬件进行了深度优化。

本文档将展示该模型的主要验证步骤,包括支持特性、特性配置、环境准备、单节点部署、精度和性能评估。

环境准备#

模型权重#

Qwen3-ASR-1.7B(BF16版本):需要1个Ascend 910B(1 x 64G NPU)。下载模型权重

建议将模型权重下载到多节点共享目录,例如/root/.cache/

安装#

Qwen3-ASR-1.7Bvllm-ascend中得到支持。

您可以直接使用我们的官方docker镜像运行Qwen3-ASR-1.7B

export IMAGE=quay.io/ascend/vllm-ascend:v0.20.2rc1
docker run --rm \
  --name vllm-ascend \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /root/.cache:/root/.cache \
  -v /data/vllm-workspace/models:/data/vllm-workspace/models \
  -p 8000:8000 \
  -it $IMAGE bash

此外,如果您不想像上面那样使用docker镜像,也可以从源码构建所有内容:

  • 从源码安装vllm-ascend,请参考安装

部署#

vllm serve "Qwen/Qwen3-ASR-1.7B" \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9 \
  --enforce-eager \
  --port 8000

功能验证#

服务器启动后,您可以使用输入提示词查询模型:

curl http://localhost:8000/v1/chat/completions
    -H "Content-Type: application/json"
    -d '{
    "messages": [
    {"role": "user", "content": [
        {"type": "audio_url",
        "audio_url":
        {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
    ]}
    ]
}'

精度评估#

处理完所有样本后,使用以下指标衡量转录质量:

  • WER(词错误率)用于词级识别精度

  • CER(字符错误率)用于字符级识别精度

当前评估结果为:

类别

数据集

指标

结果

精度

librispeech_asr / clean / test

总样本数

500

精度

librispeech_asr / clean / test

成功

500

精度

librispeech_asr / clean / test

失败

0

精度

librispeech_asr / clean / test

WER

0.035

性能#

基线结果#

在当前评估中,Qwen3-ASR-1.7B在约57秒内处理了100个样本,在当前在线服务配置下实现了1.73 samples/s的平均吞吐量。

类别

数据集

指标

结果

性能

LibriSpeech test/clean (100个样本)

总样本数

100

性能

LibriSpeech test/clean (100个样本)

总运行时间

57秒

性能

LibriSpeech test/clean (100个样本)

平均吞吐量

1.73 samples/s

备注#

该结果反映了端到端服务性能,包括音频预处理、请求构建、API通信、推理和响应解析。实际性能可能因硬件、并发数、音频长度和部署配置而异。

建议进一步对延迟分布、并发吞吐量、长音频场景和系统资源利用率进行基准测试。