wav2vec2-large-xlsr-53-german開源語音識別模型

首頁

Wav2vec2 Large Xlsr 53 German

由jonatasgrosman開發

這是一個針對德語語音識別任務微調的XLSR-53大模型，基於Facebook的wav2vec2-large-xlsr-53模型，在Common Voice 6.1德語數據集上進行了微調。

語音識別德語開源協議:Apache-2.0 #德語語音識別 #低詞錯誤率 #XLSR-53微調

下載量 8,266

發布時間 : 3/2/2022

模型概述

該模型專門用於德語自動語音識別(ASR)，能夠將德語語音轉換為文本，支持16kHz採樣率的音頻輸入。

模型特點

高性能德語識別

在Common Voice德語測試集上達到12.06%的詞錯誤率(WER)和2.92%的字符錯誤率(CER)

支持語言模型增強

結合語言模型後，WER可降至8.74%，CER降至2.28%，顯著提升識別準確率

基於XLSR-53架構

利用跨語言語音表示學習的大規模預訓練模型，具有強大的語音特徵提取能力

易於集成

提供HuggingSound庫和自定義腳本兩種使用方式，方便快速集成到應用中

模型能力

德語語音識別

音頻轉文本

支持16kHz採樣率音頻處理

使用案例

語音轉錄

德語語音轉文字

將德語語音內容自動轉換為文本格式

在標準測試集上達到12.06%的詞錯誤率

語音助手

德語語音指令識別

用於德語語音助手或控制系統的語音指令識別

🚀 用於德語語音識別的微調XLSR - 53大模型

本模型是在德語數據集上對facebook/wav2vec2-large-xlsr-53進行微調得到的，使用了Common Voice 6.1的訓練集和驗證集。使用該模型時，請確保語音輸入的採樣率為16kHz。

此模型的微調得益於OVHcloud慷慨提供的GPU計算資源。訓練腳本可在以下鏈接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速開始

本模型用於德語語音識別，基於微調的XLSR - 53大模型，能有效處理德語語音數據。使用時需注意語音輸入採樣率為16kHz。

✨ 主要特性

基於XLSR - 53大模型微調，適配德語語音識別。
可直接使用，也可結合語言模型提升性能。
訓練得益於OVHcloud的GPU資源支持。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫的安裝說明，如HuggingSound、torch、librosa、datasets、transformers等。

💻 使用示例

基礎用法

使用HuggingSound庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-german")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "de"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-german"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分預測結果示例：

參考內容	預測內容
ZIEHT EUCH BITTE DRAUSSEN DIE SCHUHE AUS.	ZIEHT EUCH BITTE DRAUSSEN DIE SCHUHE AUS
ES KOMMT ZUM SHOWDOWN IN GSTAAD.	ES KOMMT ZUG STUNDEDAUTENESTERKT
IHRE FOTOSTRECKEN ERSCHIENEN IN MODEMAGAZINEN WIE DER VOGUE, HARPER’S BAZAAR UND MARIE CLAIRE.	IHRE FOTELSTRECKEN ERSCHIENEN MIT MODEMAGAZINEN WIE DER VALG AT DAS BASIN MA RIQUAIR
FELIPE HAT EINE AUCH FÜR MONARCHEN UNGEWÖHNLICH LANGE TITELLISTE.	FELIPPE HAT EINE AUCH FÜR MONACHEN UNGEWÖHNLICH LANGE TITELLISTE
ER WURDE ZU EHREN DES REICHSKANZLERS OTTO VON BISMARCK ERRICHTET.	ER WURDE ZU EHREN DES REICHSKANZLERS OTTO VON BISMARCK ERRICHTET M
WAS SOLLS, ICH BIN BEREIT.	WAS SOLL'S ICH BIN BEREIT
DAS INTERNET BESTEHT AUS VIELEN COMPUTERN, DIE MITEINANDER VERBUNDEN SIND.	DAS INTERNET BESTEHT AUS VIELEN COMPUTERN DIE MITEINANDER VERBUNDEN SIND
DER URANUS IST DER SIEBENTE PLANET IN UNSEREM SONNENSYSTEM.	DER URANUS IST DER SIEBENTE PLANET IN UNSEREM SONNENSYSTEM
DIE WAGEN ERHIELTEN EIN EINHEITLICHES ERSCHEINUNGSBILD IN WEISS MIT ROTEM FENSTERBAND.	DIE WAGEN ERHIELTEN EIN EINHEITLICHES ERSCHEINUNGSBILD IN WEISS MIT ROTEM FENSTERBAND
SIE WAR DIE COUSINE VON CARL MARIA VON WEBER.	SIE WAR DIE COUSINE VON KARL - MARIA VON WEBER

📚 詳細文檔

評估

在mozilla - foundation/common_voice_6_0的test分割集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-german --dataset mozilla-foundation/common_voice_6_0 --config de --split test

在speech - recognition-community-v2/dev_data上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-german --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0

引用

如果您想引用此模型，可以使用以下格式：

@misc{grosman2021xlsr53-large-german,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {G}erman},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-german}},
  year={2021}
}

📄 許可證

本項目採用Apache 2.0許可證。

📋 模型信息

屬性	詳情
模型類型	用於德語語音識別的微調XLSR - 53大模型
訓練數據	Common Voice 6.1的德語訓練集和驗證集
評估指標	詞錯誤率（WER）、字符錯誤率（CER）
標籤	音頻、自動語音識別、德語、HF自動語音識別排行榜、Mozilla基金會Common Voice 6.0、魯棒語音事件、語音、XLSR微調周