Qwen3-ASR-1.7B

Qwen3-ASR-1.7B#

简介#

发布的Qwen3-ASR-1.7B是Qwen团队开发的轻量级高性能自动语音识别(ASR)模型。它在中英文多场景语音、中文方言、多语言及歌唱场景中提供行业领先的识别精度，原生支持长音频和流式推理，并针对Ascend NPU硬件进行了深度优化。

本文档将展示该模型的主要验证步骤，包括支持特性、特性配置、环境准备、单节点部署、精度和性能评估。

环境准备#

模型权重#

Qwen3-ASR-1.7B(BF16版本)：需要1个Ascend 910B（1 x 64G NPU）。下载模型权重

建议将模型权重下载到多节点共享目录，例如/root/.cache/

安装#

Qwen3-ASR-1.7B在vllm-ascend中得到支持。

您可以直接使用我们的官方docker镜像运行Qwen3-ASR-1.7B。

export IMAGE=quay.io/ascend/vllm-ascend:v0.20.2rc1
docker run --rm \
  --name vllm-ascend \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /root/.cache:/root/.cache \
  -v /data/vllm-workspace/models:/data/vllm-workspace/models \
  -p 8000:8000 \
  -it $IMAGE bash

此外，如果您不想像上面那样使用docker镜像，也可以从源码构建所有内容：

从源码安装vllm-ascend，请参考安装。

部署#

vllm serve "Qwen/Qwen3-ASR-1.7B" \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9 \
  --enforce-eager \
  --port 8000

功能验证#

服务器启动后，您可以使用输入提示词查询模型：

curl http://localhost:8000/v1/chat/completions
    -H "Content-Type: application/json"
    -d '{
    "messages": [
    {"role": "user", "content": [
        {"type": "audio_url",
        "audio_url":
        {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
    ]}
    ]
}'

精度评估#

处理完所有样本后，使用以下指标衡量转录质量：

WER（词错误率）用于词级识别精度
CER（字符错误率）用于字符级识别精度

当前评估结果为：

类别	数据集	指标	结果
精度	librispeech_asr / clean / test	总样本数	500
精度	librispeech_asr / clean / test	成功	500
精度	librispeech_asr / clean / test	失败	0
精度	librispeech_asr / clean / test	WER	0.035

性能#

基线结果#

在当前评估中，Qwen3-ASR-1.7B在约57秒内处理了100个样本，在当前在线服务配置下实现了1.73 samples/s的平均吞吐量。

类别	数据集	指标	结果
性能	LibriSpeech test/clean (100个样本)	总样本数	100
性能	LibriSpeech test/clean (100个样本)	总运行时间	57秒
性能	LibriSpeech test/clean (100个样本)	平均吞吐量	1.73 samples/s

备注#

该结果反映了端到端服务性能，包括音频预处理、请求构建、API通信、推理和响应解析。实际性能可能因硬件、并发数、音频长度和部署配置而异。

建议进一步对延迟分布、并发吞吐量、长音频场景和系统资源利用率进行基准测试。