wav2vec2-xls-r-300m-esオープンソースモデル - 無料で高精度なスペイン語自動音声認識を実現

ホーム

Wav2vec2 Xls R 300m Es

samitizerxuによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをCOMMON_VOICE - ESデータセットでファインチューニングしたスペイン語自動音声認識モデルです。

音声認識

Transformers

スペイン語オープンソースライセンス:Apache-2.0 #スペイン語音声認識 #汎用音声データセット #低文字誤り率

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

スペイン語自動音声認識用のファインチューニングモデルで、wav2vec2-xls-r-300mアーキテクチャに基づき、汎用音声データセットでトレーニングされています。

モデル特徴

複数データセット評価

Common Voice 7と頑健音声イベントデータセットで包括的に評価されています

中規模モデル

3億パラメータのwav2vec2-xls-rアーキテクチャに基づき、性能と効率のバランスを取っています

スペイン語最適化

スペイン語音声認識タスクに特化してファインチューニングされています

モデル能力

スペイン語音声認識

連続音声からテキストへの変換

多様なシナリオでの音声処理

使用事例

音声文字起こし

スペイン語音声から文字へ

スペイン語音声コンテンツを文字に変換

Common Voice 7テストセットで37.37% WERを達成

音声アシスタント

スペイン語音声コマンド認識

スペイン語音声コマンドを認識・理解

頑健音声イベントテストセットで57.28% WERを達成

🚀 wav2vec2-cls-r-300m-es

このモデルは、COMMON_VOICE - ESデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5160
単語誤り率 (Wer): 0.4016

📚 ドキュメント

モデルの概要

このモデルは、自動音声認識タスクに特化したもので、COMMON_VOICE - ESデータセットを使用してファインチューニングされています。以下に、いくつかのデータセットでの評価結果を示します。

タスク	データセット	評価指標	値
自動音声認識	Common Voice 7	テストWER	37.37
自動音声認識	Common Voice 7	テストCER	7.11
自動音声認識	Robust Speech Event - Dev Data	テストWER	55.69
自動音声認識	Robust Speech Event - Test Data	テストWER	57.28

想定用途と制限事項

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

🔧 技術詳細

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
エポック数 (num_epochs): 8.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1277	1.14	500	2.0259	0.9999
1.4111	2.28	1000	1.1251	0.8894
0.8461	3.42	1500	0.8205	0.7244
0.5042	4.57	2000	0.6116	0.5463
0.3072	5.71	2500	0.5507	0.4506
0.2181	6.85	3000	0.5213	0.4177
0.1608	7.99	3500	0.5161	0.4019

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評価コマンド

mozilla-foundation/common_voice_7_0 の test スプリットで評価する場合

python eval.py --model_id samitizerxu/wav2vec2-xls-r-300m-es --dataset mozilla-foundation/common_voice_7_0 --config es --split test

speech-recognition-community-v2/dev_data で評価する場合

python eval.py --model_id samitizerxu/wav2vec2-xls-r-300m-es --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0