wav2vec2-large-xlsr-53-dutchオープンソースのオランダ語音声認識モデル

ホーム

Wav2vec2 Large Xlsr 53 Dutch

jonatasgrosmanによって開発

facebook/wav2vec2-large-xlsr-53をファインチューニングしたオランダ語音声認識モデルで、Common VoiceとCSS10データセットでトレーニングされ、16kHz音声入力に対応しています。

音声認識その他オープンソースライセンス:Apache-2.0 #オランダ語音声認識 #XLSR-53ファインチューニング #低単語誤り率(WER)

ダウンロード数 3.0M

リリース時間 : 3/2/2022

モデル概要

オランダ語に最適化された自動音声認識(ASR)モデルで、XLSR-53アーキテクチャに基づき、オランダ語音声をテキストに変換するのに適しています。

モデル特徴

複数データセットでのトレーニング

Common Voice 6.1とCSS10データセットのトレーニングセットと検証セットを使用してファインチューニングされています

言語モデルサポート

言語モデルと組み合わせて使用可能で、認識精度が大幅に向上します(WERが15.72から12.84に改善)

効率的な音声処理

16kHzサンプリングレートの音声入力に対応し、リアルタイム音声認識シナリオに適しています

モデル能力

オランダ語音声認識

音声からテキストへの変換

言語モデルを伴う拡張認識に対応

使用事例

音声文字起こし

オランダ語音声の文字起こし

オランダ語の音声コンテンツをテキスト形式に変換します

テストセットWER 15.72/CER 5.35

音声アシスタント

オランダ語音声コマンド認識

音声アシスタントやスマートホームデバイスのオランダ語コマンド認識に使用できます

🚀 オランダ語音声認識用にファインチューニングされたXLSR-53大規模モデル

このモデルは、Common Voice 6.1 と CSS10 の学習データと検証データを用いて、オランダ語に対して facebook/wav2vec2-large-xlsr-53 をファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルのファインチューニングには、OVHcloud から提供されたGPUクレジットを利用しています。

学習に使用したスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、言語モデルを使用せずに直接利用することができます。

✨ 主な機能

オランダ語の音声認識に特化したファインチューニング済みモデルです。
音声入力が16kHzでサンプリングされていることを前提としています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets librosa torch

また、HuggingSound ライブラリを使用する場合は、以下のコマンドでインストールしてください。

pip install huggingsound

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用する場合の基本的な使用法は以下の通りです。

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-dutch")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合の高度な使用法は以下の通りです。

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "nl"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("参照:", test_dataset[i]["sentence"])
    print("予測:", predicted_sentence)

参照	予測
DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË.	DE ABBORIGENALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË
MIJN TOETSENBORD ZIT VOL STOF.	MIJN TOETSENBORD ZIT VOL STOF
ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD.	ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD
WAAR LAAT JIJ JE ONDERHOUD DOEN?	WAAR LAAT JIJ HET ONDERHOUD DOEN
NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD.	NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QUERTITOETSEMBORD
DE TAMPONS ZIJN OP.	DE TAPONT ZIJN OP
MARIJKE KENT OLIVIER NU AL MEER DAN TWEE JAAR.	MAARRIJKEN KENT OLIEVIER NU AL MEER DAN TWEE JAAR
HET VOEREN VAN BROOD AAN EENDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN.	HET VOEREN VAN BEUROT AAN EINDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN
PARKET MOET JE STOFZUIGEN, TEGELS MOET JE DWEILEN.	PARKET MOET JE STOF ZUIGEN MAAR TEGELS MOET JE DWEILEN
IN ONZE BUURT KENT IEDEREEN ELKAAR.	IN ONZE BUURT KENT IEDEREEN ELKAAR

📚 ドキュメント

評価

このモデルの評価は、以下のコマンドを使用して行うことができます。

`mozilla-foundation/common_voice_6_0` の `test` スプリットで評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset mozilla-foundation/common_voice_6_0 --config nl --split test

`speech-recognition-community-v2/dev_data` で評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset speech-recognition-community-v2/dev_data --config nl --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

引用

このモデルを引用する場合は、以下のBibTeXを使用してください。

@misc{grosman2021xlsr53-large-dutch,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {D}utch},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-dutch}},
  year={2021}
}

情報テーブル

属性	詳細
モデルタイプ	オランダ語音声認識用にファインチューニングされたXLSR-53大規模モデル
学習データ	Common Voice 6.1とCSS10の学習データと検証データ
評価指標	WER（Word Error Rate）、CER（Character Error Rate）
タグ	audio、automatic-speech-recognition、hf-asr-leaderboard、mozilla-foundation/common_voice_6_0、nl、robust-speech-event、speech、xlsr-fine-tuning-week