wav2vec2-large-xls-r-300m-or-d5オープンソースモデル - オリヤ語の音声を無料で高精度にテキスト変換

ホーム

Wav2vec2 Large Xls R 300m Or D5

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mをベースに、オリヤ語データセットで微調整した自動音声認識（ASR）モデルで、オリヤ語の音声をテキストに変換するタスクに特化しています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #オリヤ語音声認識 #低単語誤り率 #多シーン音声処理

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

このモデルはMozilla Common Voice 8.0のオリヤ語データセットで微調整された音声認識モデルで、オリヤ語の音声をテキストに変換することができます。

モデル特徴

オリヤ語専用

オリヤ語に特化して最適化された音声認識モデル

大規模事前学習モデルに基づく

facebook/wav2vec2-xls-r-300mモデルをベースに微調整され、強力な音声特徴抽出能力を引き継いでいます。

比較的低いCER

テストセットで15.72%の文字誤り率（CER）を達成しました。

モデル能力

オリヤ語音声認識

音声をテキストに変換

長い音声の処理（チャンク処理をサポート）

使用事例

音声文字起こし

オリヤ語音声文字起こし

オリヤ語の音声内容をテキストに変換

テストセットのWER 57.91%、CER 15.72%

音声アシスタント

オリヤ語音声指令認識

オリヤ語の音声アシスタントまたは音声制御システムの前端認識モジュールに使用

🚀 wav2vec2-large-xls-r-300m-or-d5

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ORデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットで以下の結果を達成しています。

🚀 クイックスタート

このモデルは、自動音声認識タスクに適用できます。以下に評価コマンドの例を示します。

💻 使用例

基本的な使用法

# このコードは評価コマンドの説明用です。
# mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset mozilla-foundation/common_voice_8_0 --config or --split test --log_outputs

# speech-recognition-community-v2/dev_dataで評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset speech-recognition-community-v2/dev_data --config or --split validation --chunk_length_s 10 --stride_length_s 1

📚 ドキュメント

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

ハイパーパラメータ	値
learning_rate	0.000111
train_batch_size	16
eval_batch_size	8
seed	42
gradient_accumulation_steps	2
total_train_batch_size	32
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
lr_scheduler_warmup_steps	800
num_epochs	200
mixed_precision_training	Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	Wer
9.2958	12.5	300	4.9014	1.0
3.4065	25.0	600	3.5150	1.0
1.5402	37.5	900	0.8356	0.7249
0.6049	50.0	1200	0.7754	0.6349
0.4074	62.5	1500	0.7994	0.6217
0.3097	75.0	1800	0.8815	0.5985
0.2593	87.5	2100	0.8532	0.5754
0.2097	100.0	2400	0.9077	0.5648
0.1784	112.5	2700	0.9047	0.5668
0.1567	125.0	3000	0.9019	0.5728
0.1315	137.5	3300	0.9295	0.5827
0.1125	150.0	3600	0.9256	0.5681
0.1035	162.5	3900	0.9148	0.5496
0.0901	175.0	4200	0.9480	0.5483
0.0817	187.5	4500	0.9799	0.5516
0.079	200.0	4800	0.9571	0.5450

フレームワークバージョン

Transformers 4.16.2
Pytorch 1.10.0+cu111
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

モデル情報

プロパティ	詳細
モデル名	wav2vec2-large-xls-r-300m-or-d5
モデルタイプ	自動音声認識
訓練データセット	mozilla-foundation/common_voice_8_0
評価結果 (Common Voice 8 - Test)	Test WER: 0.579136690647482 Test CER: 0.1572148018392818
評価結果 (Robust Speech Event - Dev Data)	Test WER: NA Test CER: NA