wav2vec2-xls-r-300m-en-atc-atcosim开源模型 - 助力航空交通管制语音自动识别

首页

Wav2vec2 Xls R 300m En Atc Atcosim

由 Jzuluaga 开发

该模型是基于facebook/wav2vec2-xls-r-300m在ATCOSIM语料库上微调的版本，专用于航空交通管制通信的自动语音识别任务。

语音识别

Transformers

英语开源协议:Apache-2.0 #航空管制ASR #低资源微调 #噪声鲁棒性

下载量 104

发布时间 : 11/16/2022

模型简介

一个针对航空交通管制(ATC)通信优化的自动语音识别(ASR)模型，在领域偏移场景下表现优异。

模型特点

领域适应性强

针对航空交通管制通信的特殊场景优化，在领域偏移情况下仍保持高性能

高效微调

仅需少量标注数据即可显著提升在ATC领域的识别准确率

噪声鲁棒性

在信噪比5-20dB的挑战性环境下仍能保持稳定表现

模型能力

航空管制语音识别

英语语音转文本

噪声环境语音处理

使用案例

航空交通管制

管制指令识别

将飞行员与管制员之间的语音通信转换为文本

相比传统方法降低20-40%词错误率

通信记录分析

自动转录ATC通信用于后续分析和存档

测试集词错误率7.36%

🚀 wav2vec2-xls-r-300m-en-atc-atcosim

本模型是 facebook/wav2vec2-xls-r-300m 在 ATCOSIM 语料库上微调后的版本。它为空中交通管制（ATC）通信领域的自动语音识别（ASR）任务提供了更精准的解决方案，能有效降低该领域语音识别的错误率。

(A better ASR model for ATC data is available here: https://huggingface.co/Jzuluaga/wav2vec2-xls-r-300m-en-atc-uwb-atcc-and-atcosim)

🚀 快速开始

该模型在评估集上取得了以下结果：

损失值：0.0988
词错误率（Wer）：0.0736

作者：Juan Zuluaga - Gomez、Amrutha Prasad、Iuliia Nigmatulina、Saeed Sarfjoo、Petr Motlicek、Matthias Kleinert、Hartmut Helmke、Oliver Ohneiser、Qingran Zhan

摘要：近期关于自监督预训练的研究主要集中在利用大规模无标签语音数据构建稳健的端到端（E2E）声学模型（AM），这些模型随后可在下游任务（如自动语音识别（ASR））上进行微调。然而，很少有研究探讨在预训练和微调阶段数据属性存在显著差异（即领域偏移）时对性能的影响。我们针对这一情况，分析了 Wav2Vec 2.0 和 XLS - R 模型在完全未见领域（空中交通管制（ATC）通信）的下游 ASR 任务中的鲁棒性。我们在几个开源且具有挑战性的 ATC 数据库上对这两个模型进行了基准测试，这些数据库的信噪比在 5 到 20 dB 之间。通过仅使用较小比例的标记数据微调 E2E 声学模型，与基于混合的 ASR 基线相比，相对词错误率（WER）降低了 20% 到 40%。我们还分析了低资源场景下的 WER 以及一个 ATC 数据集所携带的性别偏差。

代码 — GitHub 仓库：https://github.com/idiap/w2v2-air-traffic

✨ 主要特性

基于大规模无标签语音数据进行自监督预训练，构建端到端声学模型。
针对空中交通管制通信领域的领域偏移问题进行了优化，在该领域具有较好的鲁棒性。
与基于混合的 ASR 基线相比，在 ATC 数据库上可显著降低词错误率。

📦 安装指南

如果你使用语言模型，需要安装 KenLM 绑定：

conda activate your_environment
pip install https://github.com/kpu/kenlm/archive/master.zip

💻 使用示例

基础用法

from datasets import load_dataset, load_metric, Audio
import torch
from transformers import AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
import torchaudio.functional as F

USE_LM = False
DATASET_ID = "Jzuluaga/atcosim_corpus"
MODEL_ID = "Jzuluaga/wav2vec2-xls-r-300m-en-atc-atcosim"

# 1. Load the dataset
# we only load the 'test' partition, however, if you want to load the 'train' partition, you can change it accordingly
atcosim_corpus_test = load_dataset(DATASET_ID, "test", split="test")

# 2. Load the model
model = AutoModelForCTC.from_pretrained(MODEL_ID)

# 3. Load the processors, we offer support with LM, which should yield better resutls
if USE_LM:
    processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_ID)
else:
    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)

# 4. Format the test sample
sample = next(iter(atcosim_corpus_test))
file_sampling_rate = sample['audio']['sampling_rate']

# resample if neccessary
if file_sampling_rate != 16000:
    resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), file_sampling_rate, 16000).numpy()
else:
    resampled_audio = torch.tensor(sample["audio"]["array"]).numpy()

input_values = processor(resampled_audio, return_tensors="pt").input_values

# 5. Run the forward pass in the model
with torch.no_grad():
    logits = model(input_values).logits
    
# get the transcription with processor
if USE_LM:
    transcription = processor.batch_decode(logits.numpy()).text
else:
    pred_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(pred_ids)

# print the output
print(transcription)

📚 详细文档

预期用途与局限性

该模型是在空中交通管制数据上进行微调的。我们预计它在其他一些数据集（如 LibriSpeech 或 CommonVoice）上可能无法保持相同的性能。

训练和评估数据

详情请参考我们论文中的表 1（第 3 页）：How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications。我们在论文中描述了如何使用该模型的分区情况。

我们使用 ATCOSIM 数据集对该模型进行微调。你可以在此处下载原始数据：https://www.spsc.tugraz.at/databases-and-tools/atcosim-air-traffic-control-simulation-speech-corpus.html
不过，不用担心，我们已经将数据库整理成了 Datasets 格式。点击这里查看：ATCOSIM CORPUS on HuggingFace。你可以滚动查看训练/测试分区，甚至可以听取一些音频。
如果你想将数据库整理成 HuggingFace 格式，可以参考以下数据加载脚本：data_loader_atc.py。

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.0005
训练批次大小（train_batch_size）：24
评估批次大小（eval_batch_size）：24
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：96
优化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练步数（training_steps）：20000
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
1.9105	6.41	500	0.1622	0.1531
0.1119	12.82	1000	0.0971	0.0936
0.0614	19.23	1500	0.1002	0.0983
0.044	25.64	2000	0.1011	0.0929
0.0366	32.05	2500	0.0932	0.0828
0.0315	38.46	3000	0.0926	0.0880
0.0297	44.87	3500	0.0972	0.0882
0.0216	51.28	4000	0.0911	0.0774
0.0211	57.69	4500	0.0982	0.0891
0.0187	64.1	5000	0.1009	0.0863
0.02	70.51	5500	0.0953	0.0852
0.0163	76.92	6000	0.1028	0.0804
0.0128	83.33	6500	0.0930	0.0856
0.0127	89.74	7000	0.0892	0.0676
0.0116	96.15	7500	0.0857	0.0753
0.0139	102.56	8000	0.1078	0.0481
0.0107	108.97	8500	0.0955	0.0683
0.0096	115.38	9000	0.0846	0.0697
0.0089	121.79	9500	0.0854	0.0675
0.0084	128.21	10000	0.0875	0.0779
0.0074	134.62	10500	0.0840	0.0770
0.0061	141.03	11000	0.0903	0.0754
0.0076	147.44	11500	0.0872	0.0769
0.0069	153.85	12000	0.0891	0.0772
0.0061	160.26	12500	0.0971	0.0774
0.0049	166.67	13000	0.0984	0.0726
0.0045	173.08	13500	0.0952	0.0765
0.0039	179.49	14000	0.1015	0.0762
0.0031	185.9	14500	0.0937	0.0712
0.0032	192.31	15000	0.0982	0.0635
0.0028	198.72	15500	0.0981	0.0743
0.0024	205.13	16000	0.1019	0.0712
0.0024	211.54	16500	0.0957	0.0732
0.002	217.95	17000	0.0941	0.0732
0.0015	224.36	17500	0.1009	0.0717
0.0017	230.77	18000	0.0955	0.0730
0.0013	237.18	18500	0.0989	0.0732
0.0013	243.59	19000	0.0967	0.0738
0.0011	250.0	19500	0.0980	0.0734
0.0008	256.41	20000	0.0988	0.0736

框架版本

Transformers：4.24.0
Pytorch：1.13.0 + cu117
Datasets：2.6.1
Tokenizers：0.13.2

📄 许可证

本项目采用 Apache - 2.0 许可证。

引用说明

如果你在研究中使用了此代码，请引用我们的论文：

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }

以及

@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }

以及

@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}