wav2vec2-xls-r-300m-en-atc-uwb-atcc-and-atcosim开源模型

首页

Wav2vec2 Xls R 300m En Atc Uwb Atcc And Atcosim

由 Jzuluaga 开发

基于wav2vec2-xls-r-300m微调的航空管制通信语音识别模型，支持英语

语音识别

Transformers

英语开源协议:Apache-2.0 #航空管制语音识别 #低资源微调 #多语料库融合

下载量 37

发布时间 : 11/30/2022

模型简介

该模型是在航空管制通信数据集上微调的语音识别模型，专门用于处理航空管制领域的语音识别任务。

模型特点

领域专用

专门针对航空管制通信领域优化，在该领域表现优于通用语音识别模型

多数据集训练

在UWB-ATCC和ATCOSIM两个航空管制数据集上联合训练

支持语言模型

可结合KenLM语言模型进一步提升识别准确率

模型能力

航空管制语音识别

英语语音转文本

噪声环境下的语音识别

使用案例

航空交通管制

管制员指令识别

识别航空管制员与飞行员之间的通信指令

在UWB-ATCC测试集上WER为24.96%

模拟训练系统

用于航空管制员训练模拟系统中的语音交互

在ATCOSIM测试集上WER为4.09%

🚀 wav2vec2-xls-r-300m-en-atc-uwb-atcc-and-atcosim

本模型是 facebook/wav2vec2-xls-r-300m 在两个语料库上的微调版本：

UWB-ATCC 语料库；
ATCOSIM 语料库。

该模型在评估集（UWB-ATCC 和 ATCOSIM 两个测试集合并）上取得了以下结果：

损失值：0.5595
词错误率（Wer）：0.1687

论文：预训练的 Wav2Vec 2.0 在领域迁移的自动语音识别中表现如何？空中交通管制通信的全面基准测试

作者：Juan Zuluaga - Gomez、Amrutha Prasad、Iuliia Nigmatulina、Saeed Sarfjoo、Petr Motlicek、Matthias Kleinert、Hartmut Helmke、Oliver Ohneiser、Qingran Zhan

摘要：近期关于自监督预训练的工作主要集中在利用大规模无标签语音数据构建鲁棒的端到端（E2E）声学模型（AM），这些模型随后可在下游任务（如自动语音识别（ASR））上进行微调。然而，很少有工作研究在预训练和微调阶段数据属性存在显著差异（即领域迁移）时对性能的影响。我们针对这一情况，分析了 Wav2Vec 2.0 和 XLS - R 模型在完全未见领域（空中交通管制（ATC）通信）的下游 ASR 任务中的鲁棒性。我们在几个开源且具有挑战性的 ATC 数据库上对这两个模型进行了基准测试，这些数据库的信噪比在 5 到 20 dB 之间。通过仅使用较小比例的标记数据微调端到端声学模型，与基于混合的 ASR 基线相比，相对词错误率（WER）降低了 20% 到 40%。我们分析了低资源场景下的 WER 以及一个 ATC 数据集所携带的性别偏差。

代码 — GitHub 仓库：https://github.com/idiap/w2v2-air-traffic

🚀 快速开始

模型使用

你可以使用我们的 Google Colab 笔记本运行和评估我们的模型：https://github.com/idiap/w2v2-air-traffic/blob/master/src/eval_xlsr_atc_model.ipynb

预期用途和限制

本模型在空管数据上进行了微调。我们预计它在其他一些数据集（如 LibriSpeech 或 CommonVoice）上不会保持相同的性能。

训练和评估数据

详见我们论文中的表 1（第 3 页）：预训练的 Wav2Vec 2.0 在领域迁移的自动语音识别中表现如何？空中交通管制通信的全面基准测试。我们在那里描述了如何使用我们模型的分区情况。

我们使用 UWB - ATCC + ATCOSIM 语料库对该模型进行微调。你可以在此处下载原始数据：
- https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00 - 097C - 0000 - 0001 - CCA1 - 0
- https://www.spsc.tugraz.at/databases-and-tools/atcosim-air-traffic-control-simulation-speech-corpus.html
不过，不用担心，我们已经将数据库整理成 Datasets 格式：
- HuggingFace 上的 UWB - ATCC 语料库
- HuggingFace 上的 ATCOSIM 语料库
如果你想将数据库整理成 HuggingFace 格式，可以参考以下数据加载脚本：data_loader_atc.py

编写自己的推理脚本

如果你使用语言模型，需要使用以下命令安装 KenLM 绑定：

conda activate your_environment
pip install https://github.com/kpu/kenlm/archive/master.zip

代码片段如下：

from datasets import load_dataset, load_metric, Audio
import torch
from transformers import AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
import torchaudio.functional as F

USE_LM = False
DATASET_ID = "Jzuluaga/uwb_atcc"
MODEL_ID = "Jzuluaga/wav2vec2-xls-r-300m-en-atc-uwb-atcc-and-atcosim"

# 1. 加载数据集
# 我们仅加载 'test' 分区，不过，如果你想加载 'train' 分区，可以相应更改
uwb_atcc_corpus_test = load_dataset(DATASET_ID, "test", split="test")

# 2. 加载模型
model = AutoModelForCTC.from_pretrained(MODEL_ID)

# 3. 加载处理器，我们支持使用语言模型，这可能会产生更好的结果
if USE_LM:
    processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_ID)
else:
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
# 4. 格式化测试样本
sample = next(iter(uwb_atcc_corpus_test))
file_sampling_rate = sample['audio']['sampling_rate']
# 必要时进行重采样
if file_sampling_rate != 16000:
    resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), file_sampling_rate, 16000).numpy()
else:
    resampled_audio = torch.tensor(sample["audio"]["array"]).numpy()
input_values = processor(resampled_audio, return_tensors="pt").input_values

# 5. 在模型中进行前向传播
with torch.no_grad():
    logits = model(input_values).logits
    
# 使用处理器获取转录结果
if USE_LM:
    transcription = processor.batch_decode(logits.numpy()).text
else:
    pred_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(pred_ids)
# 打印输出
print(transcription)

引用我们的工作

如果你将此代码用于研究，请使用以下方式引用我们的论文：

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }

以及

@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }

以及

@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：24
评估批次大小：12
随机种子：42
优化器：Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型：线性
学习率调度器热身步数：1000
训练步数：10000
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
无记录	0.63	500	3.0458	1.0
2.9181	1.27	1000	1.1503	0.4723
2.9181	1.9	1500	0.8275	0.3500
0.7646	2.53	2000	0.6990	0.2845
0.7646	3.17	2500	0.5828	0.2509
0.5394	3.8	3000	0.5363	0.2487
0.5394	4.44	3500	0.5467	0.2171
0.4558	5.07	4000	0.5290	0.2090
0.4558	5.7	4500	0.4992	0.2046
0.3773	6.34	5000	0.4934	0.2052
0.3773	6.97	5500	0.4700	0.1983
0.3301	7.6	6000	0.4938	0.1874
0.3301	8.24	6500	0.5364	0.1893
0.2938	8.87	7000	0.5170	0.1830
0.2938	9.51	7500	0.5408	0.1815
0.2674	10.14	8000	0.5581	0.1733
0.2674	10.77	8500	0.5389	0.1719
0.24	11.41	9000	0.5344	0.1714
0.24	12.04	9500	0.5503	0.1686
0.211	12.67	10000	0.5595	0.1687

框架版本

Transformers 4.24.0
Pytorch 1.13.0 + cu117
Datasets 2.6.1
Tokenizers 0.13.2

📄 许可证

本项目采用 Apache - 2.0 许可证。

🔍 模型信息

属性	详情
模型类型	wav2vec2 - xls - r - 300m - en - atc - uwb - atcc - and - atcosim
训练数据	UWB - ATCC 语料库和 ATCOSIM 语料库
标签	音频、自动语音识别、en - atc、英语、由训练器生成
评估指标	词错误率（Wer）