wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc开源语音识别模型

首页

Wav2vec2 Large 960h Lv60 Self En Atc Uwb Atcc

由 Jzuluaga 开发

基于facebook/wav2vec2-large-960h-lv60-self模型在UWB-ATCC航空交通管制通信数据集上微调的语音识别模型

语音识别

Transformers

英语开源协议:Apache-2.0 #航空管制语音识别 #低词错误率 #领域自适应微调

下载量 115

发布时间 : 11/30/2022

模型简介

该模型专门用于航空交通管制(ATC)通信场景的英语语音识别，在领域偏移情况下表现出色

模型特点

领域适应性强

针对航空交通管制通信场景优化，在领域偏移情况下仍保持高性能

低资源高效

仅需少量标注数据微调即可显著提升性能

支持语言模型集成

可结合KenLM语言模型进一步提升识别准确率

模型能力

英语航空交通管制语音识别

噪声环境下的语音识别

领域特定术语识别

使用案例

航空交通管制

ATC通信转录

将航空管制员与飞行员之间的语音通信转换为文本

词错误率(WER)17.2(无LM)/13.72(带LM)

航空语音数据分析

支持航空安全研究和通信效率分析

🚀 wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc

本模型是 facebook/wav2vec2-large-960h-lv60-self 在 UWB-ATCC 语料库上的微调版本。它可用于空中交通管制通信的自动语音识别任务，在相关评估集上取得了较好的效果。

模型信息

属性	详情
模型类型	wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc
基础模型	facebook/wav2vec2-large-960h-lv60-self
训练数据	UWB-ATCC 语料库、ATCOSIM 语料库
评估指标	字错率（WER）
许可证	Apache-2.0

评估结果

本模型在评估集上取得了以下结果：

损失值：0.7287
字错率（WER）：0.1756

论文信息

标题：How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications
作者：Juan Zuluaga - Gomez, Amrutha Prasad, Iuliia Nigmatulina, Saeed Sarfjoo, Petr Motlicek, Matthias Kleinert, Hartmut Helmke, Oliver Ohneiser, Qingran Zhan
摘要：近期关于自监督预训练的工作重点在于利用大规模无标签语音数据构建鲁棒的端到端（E2E）声学模型（AM），这些模型随后可在下游任务（如自动语音识别（ASR））上进行微调。然而，很少有工作研究当预训练和微调阶段的数据属性存在显著差异（即领域偏移）时，对性能的影响。我们针对这一情况，分析了 Wav2Vec 2.0 和 XLS - R 模型在完全未见领域（空中交通管制（ATC）通信）的下游 ASR 任务中的鲁棒性。我们在几个开源且具有挑战性的 ATC 数据库上对这两个模型进行了基准测试，这些数据库的信噪比在 5 到 20 dB 之间。通过仅用较小比例的标记数据微调 E2E 声学模型，与基于混合的 ASR 基线相比，相对字错率（WER）降低了 20% 到 40%。我们分析了低资源场景下的 WER 以及一个 ATC 数据集所携带的性别偏差。

代码仓库

GitHub 仓库地址：https://github.com/idiap/w2v2-air-traffic

🚀 快速开始

模型使用

你可以使用我们的 Google Colab 笔记本运行和评估我们的模型：https://github.com/idiap/w2v2-air-traffic/blob/master/src/eval_xlsr_atc_model.ipynb

编写推理脚本

如果你使用语言模型，需要使用以下命令安装 KenLM 绑定：

conda activate your_environment
pip install https://github.com/kpu/kenlm/archive/master.zip

以下是推理代码示例：

from datasets import load_dataset, load_metric, Audio
import torch
from transformers import AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
import torchaudio.functional as F

USE_LM = False
DATASET_ID = "Jzuluaga/uwb_atcc"
MODEL_ID = "Jzuluaga/wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc"

# 1. 加载数据集
# 我们仅加载 'test' 分区，如果你想加载 'train' 分区，可以相应更改
uwb_atcc_corpus_test = load_dataset(DATASET_ID, "test", split="test")

# 2. 加载模型
model = AutoModelForCTC.from_pretrained(MODEL_ID)

# 3. 加载处理器，我们提供支持语言模型的选项，这可能会产生更好的结果
if USE_LM:
    processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_ID)
else:
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
# 4. 格式化测试样本
sample = next(iter(uwb_atcc_corpus_test))
file_sampling_rate = sample['audio']['sampling_rate']
# 必要时进行重采样
if file_sampling_rate != 16000:
    resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), file_sampling_rate, 16000).numpy()
else:
    resampled_audio = torch.tensor(sample["audio"]["array"]).numpy()
input_values = processor(resampled_audio, return_tensors="pt").input_values

# 5. 在模型中进行前向传播
with torch.no_grad():
    logits = model(input_values).logits
    
# 使用处理器获取转录结果
if USE_LM:
    transcription = processor.batch_decode(logits.numpy()).text
else:
    pred_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(pred_ids)
# 打印输出
print(transcription)

✨ 主要特性

基于预训练的 wav2vec2 模型进行微调，适用于空中交通管制通信的自动语音识别任务。
在多个 ATC 数据集上进行了评估，取得了较好的字错率（WER）结果。
提供了使用语言模型的选项，可进一步提高识别性能。

📦 安装指南

如果你使用语言模型，需要安装 KenLM 绑定：

conda activate your_environment
pip install https://github.com/kpu/kenlm/archive/master.zip

💻 使用示例

基础用法

# 上述推理脚本的基础使用
from datasets import load_dataset, load_metric, Audio
import torch
from transformers import AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
import torchaudio.functional as F

USE_LM = False
DATASET_ID = "Jzuluaga/uwb_atcc"
MODEL_ID = "Jzuluaga/wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc"

# 1. 加载数据集
uwb_atcc_corpus_test = load_dataset(DATASET_ID, "test", split="test")

# 2. 加载模型
model = AutoModelForCTC.from_pretrained(MODEL_ID)

# 3. 加载处理器
if USE_LM:
    processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_ID)
else:
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
# 4. 格式化测试样本
sample = next(iter(uwb_atcc_corpus_test))
file_sampling_rate = sample['audio']['sampling_rate']
if file_sampling_rate != 16000:
    resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), file_sampling_rate, 16000).numpy()
else:
    resampled_audio = torch.tensor(sample["audio"]["array"]).numpy()
input_values = processor(resampled_audio, return_tensors="pt").input_values

# 5. 进行前向传播
with torch.no_grad():
    logits = model(input_values).logits
    
# 获取转录结果
if USE_LM:
    transcription = processor.batch_decode(logits.numpy()).text
else:
    pred_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(pred_ids)
# 打印输出
print(transcription)

高级用法

# 可根据实际需求调整 USE_LM 参数，使用语言模型以获得更好的识别效果
USE_LM = True
# 其余代码与基础用法相同

📚 详细文档

预期用途与限制

本模型在空中交通管制数据上进行了微调。我们预计它在其他数据集（如 LibriSpeech 或 CommonVoice）上可能无法保持相同的性能。

训练和评估数据

详情请参阅我们论文中的表 1（第 3 页）：How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications。我们在论文中描述了如何使用我们模型的分区情况。

我们使用 UWB - ATCC 语料库对该模型进行微调。你可以在此处下载原始数据：https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00 - 097C - 0000 - 0001 - CCA1 - 0
不过，不用担心，我们已经将数据库准备成 Datasets 格式。可查看 HuggingFace 上的 UWB - ATCC 语料库。你可以滚动查看训练/测试分区，甚至可以收听一些音频。
如果你想准备一个 HuggingFace 格式的数据库，可以参考以下数据加载脚本：data_loader_atc.py。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批次大小：24
评估批次大小：12
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练步数：10000
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（WER）
无记录	1.06	500	2.9016	0.9995
2.877	2.12	1000	0.9812	0.3485
2.877	3.18	1500	0.7842	0.2732
0.7834	4.25	2000	0.6962	0.2192
0.7834	5.31	2500	0.6527	0.2042
0.6084	6.37	3000	0.6220	0.1972
0.6084	7.43	3500	0.6442	0.1934
0.5147	8.49	4000	0.6793	0.1950
0.5147	9.55	4500	0.6432	0.1920
0.4566	10.62	5000	0.6605	0.1853
0.4566	11.68	5500	0.6393	0.1866
0.4155	12.74	6000	0.6918	0.1803
0.4155	13.8	6500	0.6514	0.1791
0.372	14.86	7000	0.7010	0.1851
0.372	15.92	7500	0.6824	0.1786
0.3368	16.99	8000	0.6895	0.1780
0.3368	18.05	8500	0.7150	0.1759
0.3244	19.11	9000	0.7141	0.1759
0.3244	20.17	9500	0.7225	0.1756
0.2981	21.23	10000	0.7287	0.1756

框架版本

Transformers 4.24.0
Pytorch 1.13.0+cu117
Datasets 2.6.1
Tokenizers 0.13.2

📄 许可证

本项目采用 Apache - 2.0 许可证。

🔗 引用

如果你在研究中使用了此代码，请引用我们的论文：

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }

以及：

@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }

以及：

@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}