wav2vec2-large-xls-r-300m-Urdu オープンソース音声認識モデル - ウルドゥー語の音声を高精度で認識

ホーム

Wav2vec2 Large Xls R 300m Urdu

kingabzproによって開発

facebook/wav2vec2-xls-r-300mをCommon Voice 8ウルドゥー語データセットでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #低単語誤り率 #多様なシナリオの音声書き起こし

ダウンロード数 91.36k

リリース時間 : 3/2/2022

モデル概要

このモデルはウルドゥー語に最適化された自動音声認識(ASR)モデルで、wav2vec2アーキテクチャに基づき、Common Voice 8データセットでファインチューニングされており、ウルドゥー語音声からテキストへの変換タスクをサポートします。

モデル特徴

ウルドゥー語最適化

ウルドゥー語音声認識タスクに特化して最適化されています

wav2vec2アーキテクチャ採用

Facebookのwav2vec2-xls-r-300m事前学習モデルをベースにしています

Common Voiceデータセットでファインチューニング

Mozilla Common Voice 8ウルドゥー語データセットでファインチューニングされています

モデル能力

ウルドゥー語音声認識

音声からテキストへの変換

長い音声処理(チャンク処理対応)

使用事例

音声書き起こし

ウルドゥー語音声書き起こし

ウルドゥー語音声コンテンツをテキストに変換

テストセットWER 39.89、CER 16.7

音声アシスタント

ウルドゥー語音声コマンド認識

ウルドゥー語音声アシスタントシステムでのコマンド認識に使用

🚀 wav2vec2-large-xls-r-300m-Urdu

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.9889
単語誤り率 (Wer): 0.5607
文字誤り率 (Cer): 0.2370

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価するには、以下のコマンドを実行します。

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mozilla-foundation/common_voice_8_0 --config ur --split test

💻 使用例

基本的な使用法

from datasets import load_dataset, Audio
from transformers import pipeline
model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
data = load_dataset("mozilla-foundation/common_voice_8_0",
                     "ur",
                     split="test", 
                     streaming=True, 
                     use_auth_token=True)

sample_iter = iter(data.cast_column("path", 
                    Audio(sampling_rate=16_000)))
sample = next(sample_iter)

asr = pipeline("automatic-speech-recognition", model=model)
prediction = asr(sample["path"]["array"], 
                  chunk_length_s=5, 
                  stride_length_s=1)
prediction
# => {'text': 'اب یہ ونگین لمحاتانکھار دلمیں میںفوث کریلیا اجائ'}

📚 詳細ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0001
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配蓄積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 64
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 1000
エポック数 (num_epochs): 200

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.6398	30.77	400	3.3517	1.0	1.0
2.9225	61.54	800	2.5123	1.0	0.8310
1.2568	92.31	1200	0.9699	0.6273	0.2575
0.8974	123.08	1600	0.9715	0.5888	0.2457
0.7151	153.85	2000	0.9984	0.5588	0.2353
0.6416	184.62	2400	0.9889	0.5607	0.2370

フレームワークのバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

Common Voice 8 "test" での評価結果 (単語誤り率 - WER)

LMなし	LMあり (`./eval.py` を実行)
52.03	39.89

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

🔍 その他の情報

言語: ウルドゥー語 (ur)
タグ: generated_from_trainer, hf-asr-leaderboard, robust-speech-event
データセット: mozilla-foundation/common_voice_8_0
評価指標: 単語誤り率 (wer)
ベースモデル: facebook/wav2vec2-xls-r-300m
モデル情報:
- 名前: wav2vec2-large-xls-r-300m-Urdu
- 結果:
  - タスク:
    - タイプ: 自動音声認識 (automatic-speech-recognition)
    - 名前: 音声認識 (Speech Recognition)
  - データセット:
    - 名前: Common Voice 8
    - タイプ: mozilla-foundation/common_voice_8_0
    - 引数: ur
  - 評価指標:
    - タイプ: 単語誤り率 (wer)
    - 値: 39.89
    - 名前: テスト単語誤り率 (Test WER)
    - タイプ: 文字誤り率 (cer)
    - 値: 16.7
    - 名前: テスト文字誤り率 (Test CER)