wav2vec2-large-xlsr-german開源語音識別模型

首頁

Wav2vec2 Large Xlsr German

由maxidl開發

基於Facebook的wav2vec2-large-xlsr-53模型，使用Common Voice德語數據集微調的自動語音識別(ASR)模型

語音識別德語開源協議:Apache-2.0 #德語語音識別 #高精度WER12.77 #XLSR微調

下載量 253

發布時間 : 3/2/2022

模型概述

這是一個針對德語優化的自動語音識別模型，能夠將德語語音轉換為文本，適用於需要語音轉文字的應用場景。

模型特點

高精度德語識別

在Common Voice德語測試集上達到12.77%的WER(詞錯誤率)

基於XLSR架構

使用facebook/wav2vec2-large-xlsr-53作為基礎模型，具有強大的語音特徵提取能力

無需語言模型

可直接使用，不需要額外的語言模型支持

模型能力

德語語音識別

16kHz音頻處理

批量語音轉文本

使用案例

語音轉寫

德語會議記錄

將德語會議錄音自動轉換為文字記錄

準確率約87.23%(基於12.77% WER)

語音助手

為德語語音助手提供語音識別能力

教育

語言學習應用

幫助學習者練習德語發音和聽力

🚀 Wav2Vec2-Large-XLSR-53-德語

該模型在德語上對 facebook/wav2vec2-large-xlsr-53 進行了微調，使用的是 Common Voice 數據集。使用此模型時，請確保語音輸入的採樣率為 16kHz。

🚀 快速開始

本模型可直接使用（無需語言模型），具體操作如下：

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "de", split="test[:8]") # 為演示目的使用 8 個樣本的批次

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german") 

resampler = torchaudio.transforms.Resample(48_000, 16_000)

"""
對數據集進行預處理：
- 加載音頻文件
- 重採樣至 16kHz
- 轉換為數組
- 使用處理器準備輸入張量
"""
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

# 前向傳播
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("預測結果:", processor.batch_decode(predicted_ids))
print("參考結果:", test_dataset["sentence"])
"""
示例結果：

預測結果: [
    'zieh durch bittet draußen die schuhe aus',
    'es kommt zugvorgebauten fo',
    'ihre vorterstrecken erschienen it modemagazinen wie der voge karpes basar mariclair',
    'fürliepert eine auch für manachen ungewöhnlich lange drittelliste',
    'er wurde zu ehren des reichskanzlers otto von bismarck errichtet',
    'was solls ich bin bereit',
    'das internet besteht aus vielen computern die miteinander verbunden sind',
    'der uranus ist der siebinteplanet in unserem sonnensystem s'
]

參考結果: [
    'Zieht euch bitte draußen die Schuhe aus.',
    'Es kommt zum Showdown in Gstaad.',
    'Ihre Fotostrecken erschienen in Modemagazinen wie der Vogue, Harper’s Bazaar und Marie Claire.',
    'Felipe hat eine auch für Monarchen ungewöhnlich lange Titelliste.',
    'Er wurde zu Ehren des Reichskanzlers Otto von Bismarck errichtet.',
    'Was solls, ich bin bereit.',
    'Das Internet besteht aus vielen Computern, die miteinander verbunden sind.',
    'Der Uranus ist der siebente Planet in unserem Sonnensystem.'
]
"""

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "de", split="test[:8]") # 為演示目的使用 8 個樣本的批次

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german") 

resampler = torchaudio.transforms.Resample(48_000, 16_000)

"""
對數據集進行預處理：
- 加載音頻文件
- 重採樣至 16kHz
- 轉換為數組
- 使用處理器準備輸入張量
"""
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

# 前向傳播
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("預測結果:", processor.batch_decode(predicted_ids))
print("參考結果:", test_dataset["sentence"])

高級用法

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

"""
在完整測試集上進行評估：
- 大約需要 20 分鐘（RTX 3090）。
- 需要約 170GB 內存來計算 WER。下面，我們使用分塊實現的 WER 來避免大量內存消耗。
"""
test_dataset = load_dataset("common_voice", "de", split="test") # 使用 "test[:1%]" 進行 1% 的樣本測試
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model.to("cuda")

chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 預處理數據集。
# 我們需要將音頻文件讀取為數組
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# 預處理數據集。
# 我們需要將音頻文件讀取為數組
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8) # batch_size=8 -> 需要約 14.5GB GPU 內存

# 非分塊版本：
# print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
# WER: 12.900291 

# 分塊版本，參見 https://discuss.huggingface.co/t/spanish-asr-fine-tuning-wav2vec2/4586/5:
import jiwer

def chunked_wer(targets, predictions, chunk_size=None):
    if chunk_size is None: return jiwer.wer(targets, predictions)
    start = 0
    end = chunk_size
    H, S, D, I = 0, 0, 0, 0
    while start < len(targets):
        chunk_metrics = jiwer.compute_measures(targets[start:end], predictions[start:end])
        H = H + chunk_metrics["hits"]
        S = S + chunk_metrics["substitutions"]
        D = D + chunk_metrics["deletions"]
        I = I + chunk_metrics["insertions"]
        start += chunk_size
        end += chunk_size
    return float(S + D + I) / float(H + S + D)

print("總計 (chunk_size=1000), WER: {:2f}".format(100 * chunked_wer(result["pred_strings"], result["sentence"], chunk_size=1000)))
# 總計 (chunk=1000), WER: 12.768981

🔧 評估

該模型可以在 Common Voice 的德語測試數據上進行如下評估：

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

"""
在完整測試集上進行評估：
- 大約需要 20 分鐘（RTX 3090）。
- 需要約 170GB 內存來計算 WER。下面，我們使用分塊實現的 WER 來避免大量內存消耗。
"""
test_dataset = load_dataset("common_voice", "de", split="test") # 使用 "test[:1%]" 進行 1% 的樣本測試
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model.to("cuda")

chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 預處理數據集。
# 我們需要將音頻文件讀取為數組
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# 預處理數據集。
# 我們需要將音頻文件讀取為數組
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8) # batch_size=8 -> 需要約 14.5GB GPU 內存

# 非分塊版本：
# print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
# WER: 12.900291 

# 分塊版本，參見 https://discuss.huggingface.co/t/spanish-asr-fine-tuning-wav2vec2/4586/5:
import jiwer

def chunked_wer(targets, predictions, chunk_size=None):
    if chunk_size is None: return jiwer.wer(targets, predictions)
    start = 0
    end = chunk_size
    H, S, D, I = 0, 0, 0, 0
    while start < len(targets):
        chunk_metrics = jiwer.compute_measures(targets[start:end], predictions[start:end])
        H = H + chunk_metrics["hits"]
        S = S + chunk_metrics["substitutions"]
        D = D + chunk_metrics["deletions"]
        I = I + chunk_metrics["insertions"]
        start += chunk_size
        end += chunk_size
    return float(S + D + I) / float(H + S + D)

print("總計 (chunk_size=1000), WER: {:2f}".format(100 * chunked_wer(result["pred_strings"], result["sentence"], chunk_size=1000)))
# 總計 (chunk=1000), WER: 12.768981

測試結果：WER: 12.77 %

🔧 訓練

訓練使用了 Common Voice 德語的 train 和 validation 數據集。訓練腳本可在此處找到。該模型訓練了 50k 步，在單個 A100 上大約需要 30 小時。

訓練此模型使用的參數如下：

python run_finetuning.py \
--model_name_or_path="facebook/wav2vec2-large-xlsr-53" \
--dataset_config_name="de" \
--output_dir=./wav2vec2-large-xlsr-german \
--preprocessing_num_workers="16" \
--overwrite_output_dir \
--num_train_epochs="20" \
--per_device_train_batch_size="64" \
--per_device_eval_batch_size="32" \
--learning_rate="1e-4" \
--warmup_steps="500" \
--evaluation_strategy="steps" \
--save_steps="5000" \
--eval_steps="5000" \
--logging_steps="1000" \
--save_total_limit="3" \
--freeze_feature_extractor \
--activation_dropout="0.055" \
--attention_dropout="0.094" \
--feat_proj_dropout="0.04" \
--layerdrop="0.04" \
--mask_time_prob="0.08" \
--gradient_checkpointing="1" \
--fp16 \
--do_train \
--do_eval \
--dataloader_num_workers="16" \
--group_by_length

📄 許可證

本模型使用的許可證為 apache-2.0。

📋 模型信息

屬性	詳情
模型類型	基於 XLSR Wav2Vec2 架構微調的語音識別模型
訓練數據	Common Voice 德語數據集的訓練集和驗證集
評估指標	詞錯誤率（WER）
測試 WER	12.77%