wav2vec2-large-xlsr-53-german-with-lmオープンソースモデル - ドイツ語音声の効率的かつ正確な認識に欠かせない助手

ホーム

Wav2vec2 Large Xlsr 53 German With Lm

aware-aiによって開発

これはXLSR Wav2Vec2アーキテクチャに基づくドイツ語自動音声認識モデルで、言語モデルサポートを備えており、Common Voiceドイツ語データセットで優れた性能を発揮します。

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #低単語誤り率 #XLSRファインチューニング

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルはドイツ語音声認識タスクに使用され、音響モデルと言語モデルを組み合わせて、ドイツ語音声を効率的かつ正確にテキストに変換できます。

モデル特徴

低単語誤り率

Common Voiceドイツ語テストセットで5.75%のWERと1.90%のCERを達成

言語モデル統合

kenlm言語モデルを組み合わせ、認識精度を向上

XLSRアーキテクチャベース

大規模な自己教師あり事前学習済みXLSR Wav2Vec2モデルを使用

モデル能力

ドイツ語音声認識

音声からテキストへの変換

高精度な音声文字起こし

使用事例

音声文字起こし

ドイツ語音声の書き起こし

ドイツ語音声コンテンツをテキスト形式に変換

高精度な文字起こし結果、WERはわずか5.75%

音声アシスタント

ドイツ語音声コマンド認識

ドイツ語音声アシスタントや制御システムの音声認識コンポーネントとして使用

🚀 XLSR Wav2Vec2 ドイツ語モデル with LM

このモデルは、自動音声認識タスクに特化したドイツ語用のモデルです。Common Voiceのドイツ語データセットを使用して訓練され、WERとCERの指標で評価されています。

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。以下のセクションでは、モデルの評価方法やテスト結果について説明します。

✨ 主な機能

ドイツ語の自動音声認識に特化したモデル
Common Voiceのドイツ語データセットを使用して訓練
WERとCERの指標で評価

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets torchaudio torch

💻 使用例

基本的な使用法

import torchaudio.functional as F
import torch
from transformers import AutoModelForCTC, AutoProcessor
import re
from datasets import load_dataset, load_metric

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

counter = 0
wer_counter = 0
cer_counter = 0

def main():
    model = AutoModelForCTC.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")
    processor = AutoProcessor.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")

    wer = load_metric("wer")
    cer = load_metric("cer")

    ds = load_dataset("common_voice", "de", split="test")
    #ds = ds.select(range(100))

    def calculate_metrics(batch):
        global counter, wer_counter, cer_counter
        resampled_audio = F.resample(torch.tensor(batch["audio"]["array"]), 48_000, 16_000).numpy()

        input_values = processor(resampled_audio, return_tensors="pt", sampling_rate=16_000).input_values

        with torch.no_grad():
            logits = model(input_values).logits.numpy()[0]


        decoded = processor.decode(logits)
        pred = decoded.text

        ref = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()

        wer_result = wer.compute(predictions=[pred], references=[ref])
        cer_result = cer.compute(predictions=[pred], references=[ref])

        counter += 1
        wer_counter += wer_result
        cer_counter += cer_result

        print(f"WER: {(wer_counter/counter)*100} | CER: {(cer_counter/counter)*100}")

        return batch


    ds.map(calculate_metrics, remove_columns=ds.column_names)
    
main()