wav2vec2-large-xls-r-300m-assameseオープンソースモデル - 無料でアッサム語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Assamese

infinitejoyによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voice_7_0データセットでファインチューニングしたバージョンで、アッサム語の自動音声認識タスクに使用されます。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #アッサム語音声認識 #XLS-Rファインチューニング #低リソース言語処理

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

これはアッサム語に最適化された自動音声認識モデルで、XLS-R-300Mアーキテクチャを基にファインチューニングされており、アッサム語の音声から文字への変換タスクに適しています。

モデル特徴

アッサム語最適化

アッサム語に特化してファインチューニングされており、この言語の認識精度が向上しています

XLS-R-300Mベース

強力なXLS-R-300Mアーキテクチャをベースモデルとして使用

Common Voiceデータセットでトレーニング

mozilla-foundation/common_voice_7_0データセットでトレーニングされています

モデル能力

アッサム語音声認識

音声から文字への変換

使用事例

音声文字起こし

アッサム語音声から文字へ

アッサム語の音声コンテンツを文字に変換

WER: 72.64, CER: 27.35

🚀 wav2vec2-large-xls-r-300m-assamese

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice_7_0 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

WER: 0.7954545454545454
CER: 0.32341269841269843

📚 ドキュメント

モデルの説明

詳細情報は後ほど提供される予定です。

想定される用途と制限

詳細情報は後ほど提供される予定です。

学習と評価データ

評価パラメータを計算するには、以下のコマンドを実行します。

cd wav2vec2-large-xls-r-300m-assamese; python eval.py --model_id ./ --dataset mozilla-foundation/common_voice_7_0 --config as --split test --log_outputs

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 3e-4
train_batch_size: 16
eval_batch_size: 8
seed: 未指定
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 400
mixed_precision_training: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	WER
1.584065	NA	400	1.584065	0.915512
1.658865	Na	800	1.658865	0.805096
1.882352	NA	1200	1.882352	0.820742
1.881240	NA	1600	1.881240	0.810907
2.159748	NA	2000	2.159748	0.804202
1.992871	NA	2400	1.992871	0.803308
2.201436	NA	2800	2.201436	0.802861
2.165218	NA	3200	2.165218	0.793920
2.253643	NA	3600	2.253643	0.796603
2.265880	NA	4000	2.265880	0.790344
2.293935	NA	4400	2.293935	0.797050
2.288851	NA	4800	2.288851	0.784086