🚀 XLS - R - 300M - ブルトン語
このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BR データセットでファインチューニングしたバージョンです。評価セットでは以下の結果が得られました。
✨ 主な機能
- 自動音声認識タスクに適しています。
- Mozilla財団のCommon Voice 8.0ブルトン語データセットを基にファインチューニングされています。
🚀 クイックスタート
このモデルは自動音声認識タスクに使用できます。以下に使用例を示します。
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "br", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
評価コマンド
1. mozilla - foundation/common_voice_8_0
データセットの test
分割で評価
python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset mozilla-foundation/common_voice_8_0 --config br --split test
2. speech - recognition - community - v2/dev_data
データセットで評価
python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset speech-recognition-community-v2/dev_data --config br --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📚 ドキュメント
モデル情報
属性 |
詳細 |
モデルタイプ |
[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を基にファインチューニングされた自動音声認識モデル |
訓練データ |
mozilla - foundation/common_voice_8_0(ブルトン語) |
評価結果
評価指標 |
数値 |
テスト単語誤り率(Test WER) |
54.855 |
テスト文字誤り率(Test CER) |
17.865 |
フレームワークバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。