wav2vec2-large-xls-r-300m-bg-v1オープンソースモデル - 無料でブルガリア語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Bg V1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをブルガリア語音声データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブルガリア語音声認識 #マルチシーン音声転写 #低文字誤り率

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはブルガリア語に特化して最適化されており、音声をテキストに変換する自動音声認識タスクに使用されます。

モデル特徴

ブルガリア語最適化

ブルガリア語に特化してファインチューニングされており、より優れた音声認識効果を提供します

大規模事前学習モデルベース

facebookのwav2vec2-xls-r-300mモデルをベースにファインチューニングされており、その強力な音声特徴抽出能力を継承しています

マルチデータセット評価

Common Voice 8やロバスト音声イベントなど複数のデータセットで評価されています

モデル能力

ブルガリア語音声認識

連続音声テキスト変換

対話音声処理

使用事例

音声文字起こし

ブルガリア語音声文字起こし

ブルガリア語音声コンテンツをテキストに変換

Common Voice 8テストセットでWER 0.47

音声アシスタント

ブルガリア語音声コマンド認識

ブルガリア語音声アシスタントや音声制御システムの音声認識モジュールとして使用

🚀 wav2vec2-large-xls-r-300m-bg-v1

このモデルは自動音声認識を行うためのモデルです。MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットで微調整されており、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、facebook/wav2vec2-xls-r-300m をMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5197
単語誤り率 (Wer): 0.4689

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

評価コマンドの例を以下に示します。

mozilla - foundation/common_voice_8_0 のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs

speech - recognition - community - v2/dev_data で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1

📚 ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 7e - 05
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 16
シード (seed): 42
オプティマイザ (optimizer): Adam (ベータ=(0.9, 0.999), イプシロン=1e - 08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 50.0
混合精度学習 (mixed_precision_training): ネイティブAMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.3711	2.61	300	4.3122	1.0
3.1653	5.22	600	3.1156	1.0
2.8904	7.83	900	2.8421	0.9918
0.9207	10.43	1200	0.9895	0.8689
0.6384	13.04	1500	0.6994	0.7700
0.5215	15.65	1800	0.5628	0.6443
0.4573	18.26	2100	0.5316	0.6174
0.3875	20.87	2400	0.4932	0.5779
0.3562	23.48	2700	0.4972	0.5475
0.3218	26.09	3000	0.4895	0.5219
0.2954	28.7	3300	0.5226	0.5192
0.287	31.3	3600	0.4957	0.5146
0.2587	33.91	3900	0.4944	0.4893
0.2496	36.52	4200	0.4976	0.4895
0.2365	39.13	4500	0.5185	0.4819
0.2264	41.74	4800	0.5152	0.4776
0.2224	44.35	5100	0.5031	0.4746
0.2096	46.96	5400	0.5062	0.4708
0.2038	49.57	5700	0.5217	0.4698

フレームワークバージョン

Transformers: 4.17.0.dev0
Pytorch: 1.10.2+cu102
Datasets: 1.18.2.dev0
Tokenizers: 0.11.0

🔧 技術詳細

このモデルは、自動音声認識タスクに特化しており、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットを使用して微調整されています。以下に、各データセットでの評価結果を示します。

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8	単語誤り率 (Test WER)	0.4709579127785184
自動音声認識	Common Voice 8	文字誤り率 (Test CER)	0.10205125354383235
自動音声認識	Robust Speech Event - Dev Data	単語誤り率 (Test WER)	0.7053128872366791
自動音声認識	Robust Speech Event - Dev Data	文字誤り率 (Test CER)	0.210804311998487
自動音声認識	Robust Speech Event - Test Data	単語誤り率 (Test WER)	72.6