wav2vec2-xls-r-300m-rm-sursilv-d11オープンソース音声認識モデル - ロマンシュ語

Wav2vec2 Xls R 300m Rm Sursilv D11

DrishtiSharmaによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをベースに、ロマンシュ語 - スルシルヴァ方言データセットで微調整された自動音声認識モデルです。Common Voice 8テストセットで24.09%の単語誤り率（WER）を達成しました。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ロマンシュ語音声認識 #低単語誤り率（WER）#Common Voice適合

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これは、ロマンシュ語 - スルシルヴァ方言用の自動音声認識モデルで、wav2vec2-xls-r-300mアーキテクチャをベースに微調整されており、音声をテキストに変換するタスクに適しています。

モデル特徴

低リソース言語サポート

低リソース言語であるロマンシュ語 - スルシルヴァ方言に特化して最適化されています

高性能

Common Voice 8テストセットで24.09%の単語誤り率（WER）と4.98%の文字誤り率（CER）を達成しました

XLS - Rアーキテクチャベース

Facebookのwav2vec2-xls-r-300mをベースモデルとして使用しており、強力な音声特徴抽出能力を持っています

モデル能力

音声認識

音声からテキストへの変換

ロマンシュ語 - スルシルヴァ方言処理

使用事例

音声文字起こし

ロマンシュ語音声文字起こし

ロマンシュ語 - スルシルヴァ方言の音声内容をテキストに変換します

Common Voice 8テストセットでのWERは24.09%です

音声支援技術

ロマンシュ語音声アシスタント

ロマンシュ語使用者向けに音声制御アプリを開発します

🚀 wav2vec2-xls-r-300m-rm-sursilv-d11

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - RM-SURSILVデータセットで微調整されたfacebook/wav2vec2-xls-r-300mのバージョンです。自動音声認識タスクに特化しており、高い精度を達成しています。

🚀 クイックスタート

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - RM-SURSILVデータセットで微調整されたfacebook/wav2vec2-xls-r-300mのバージョンです。評価セットでは、以下の結果を達成しています。

損失: 0.2511
単語誤り率 (Wer): 0.2415

評価コマンド

mozilla-foundation/common_voice_8_0のテスト分割で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-sursilv-d11 --dataset mozilla-foundation/common_voice_8_0 --config rm-sursilv --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合 Romansh-Sursilv言語はspeech-recognition-community-v2/dev_dataでは利用できません。

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 7e-05
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 16
シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 125.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.3958	17.44	1500	0.6808	0.6521
0.9663	34.88	3000	0.3023	0.3718
0.7963	52.33	4500	0.2588	0.3046
0.6893	69.77	6000	0.2436	0.2718
0.6148	87.21	7500	0.2521	0.2572
0.5556	104.65	9000	0.2490	0.2442
0.5258	122.09	10500	0.2515	0.2442

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
学習データ	mozilla-foundation/common_voice_8_0

モデル指標

モデル名: wav2vec2-xls-r-300m-rm-sursilv-d11
- タスク: 自動音声認識 (Automatic Speech Recognition)
- データセット: mozilla-foundation/common_voice_8_0 (Common Voice 8 - rm-sursilv)
  - 評価指標:
    - 単語誤り率 (Wer): 0.24094169578811844
    - 文字誤り率 (CER): 0.049832791672554284
- タスク: 自動音声認識 (Automatic Speech Recognition)
- データセット: speech-recognition-community-v2/dev_data (Robust Speech Event - Dev Data - rm-sursilv)
  - 評価指標:
    - 単語誤り率 (Wer): NA
    - 文字誤り率 (CER): NA