🚀 wav2vec2-large-xls-r-1b-スウェーデン語
このモデルは、facebook/wav2vec2-xls-r-1b をCommon Voiceデータセットで微調整したバージョンです。自動音声認識タスクで優れた性能を発揮し、音声を正確にテキストに変換することができ、スウェーデン語の音声処理に強力なサポートを提供します。
✨ 主な機能
- 多領域対応:自動音声認識やロバストな音声イベント処理など、複数の領域に適用可能です。
- 高精度性能:Common Voiceデータセットで微調整され、スウェーデン語の音声認識タスクで良好な評価結果を得ています。
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xls-r-1b-Swedish"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
📚 ドキュメント
評価指標
このモデルは評価セットで以下の結果を得ています。
言語モデルなし(Without LM)
- 損失(Loss): 0.3370
- 単語誤り率(Wer): 18.44
- 文字誤り率(Cer): 5.75
言語モデルあり(With LM)
- 損失(Loss): 0.3370
- 単語誤り率(Wer): 14.04
- 文字誤り率(Cer): 4.86
評価コマンド
mozilla-foundation/common_voice_8_0
データセットの test
分割で評価する場合:
python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset mozilla-foundation/common_voice_8_0 --config sv-SE --split test
speech-recognition-community-v2/dev_data
データセットで評価する場合:
python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0
学習ハイパーパラメータ
学習過程では以下のハイパーパラメータが使用されています。
属性 |
詳細 |
学習率(learning_rate) |
7.5e-05 |
学習バッチサイズ(train_batch_size) |
64 |
評価バッチサイズ(eval_batch_size) |
8 |
乱数シード(seed) |
42 |
勾配累積ステップ数(gradient_accumulation_steps) |
4 |
総学習バッチサイズ(total_train_batch_size) |
256 |
オプティマイザ(optimizer) |
Adam(betas=(0.9,0.999),epsilon=1e-08) |
学習率スケジューラのタイプ(lr_scheduler_type) |
線形(linear) |
学習率スケジューラのウォームアップステップ数(lr_scheduler_warmup_steps) |
1000 |
学習エポック数(num_epochs) |
50 |
混合精度学習(mixed_precision_training) |
ネイティブ自動混合精度(Native AMP) |
学習結果
学習損失(Training Loss) |
エポック数(Epoch) |
ステップ数(Step) |
検証損失(Validation Loss) |
単語誤り率(Wer) |
文字誤り率(Cer) |
3.1562 |
11.11 |
500 |
0.4830 |
0.3729 |
0.1169 |
0.5655 |
22.22 |
1000 |
0.3553 |
0.2381 |
0.0743 |
0.3376 |
33.33 |
1500 |
0.3359 |
0.2179 |
0.0696 |
0.2419 |
44.44 |
2000 |
0.3232 |
0.1844 |
0.0575 |
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
🔧 技術詳細
このモデルは facebook/wav2vec2-xls-r-1b
ベースモデルを mozilla-foundation/common_voice_8_0
データセットで微調整したものです。特定の学習ハイパーパラメータとオプティマイザを使用することで、スウェーデン語の音声認識タスクで良好な結果を得ています。評価指標には単語誤り率(Wer)と文字誤り率(Cer)が含まれ、モデルの性能を測定するために使用されます。
📄 ライセンス
このモデルは Apache-2.0 ライセンスを使用しています。