wav2vec2-xlsr-Basaaオープンソース自動音声認識モデル

ホーム

Wav2vec2 Xlsr Basaa

sammy786によって開発

このモデルはfacebook/wav2vec2-xls-r-1bをCommon Voice 8バサ語データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #バサ語音声認識 #多方言サポート #低リソース最適化

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはバサ語の自動音声認識用モデルで、wav2vec2-xls-r-1bアーキテクチャを基にCommon Voice 8データセットでトレーニングされました。

モデル特徴

高性能バサ語認識

Common Voice 8バサ語データセットでファインチューニングされ、単語誤り率(WER)41.23、文字誤り率(CER)13.54

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-1bモデルを基にファインチューニングされており、強力な音声特徴抽出能力を継承

ロバストな音声処理

対話シーンや異なる音声品質の入力を処理可能

モデル能力

バサ語音声認識

自動音声テキスト変換

対話音声処理

使用事例

音声書き起こし

バサ語音声転写

バサ語音声コンテンツをテキストに変換

単語誤り率41.23%、文字誤り率13.54%

音声アシスタント

バサ語音声インタラクション

バサ語音声アシスタントや対話システムの開発に使用

🚀 sammy786/wav2vec2-xlsr-basaa

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - basデータセット上でfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セット（トレインデータセットの10％を他のデータセットとdevデータセットと結合したもの）で以下の結果を達成しています。

損失: 21.39
単語誤り率（Wer）: 30.99

✨ 主な機能

このモデルは自動音声認識（Automatic Speech Recognition）タスクに特化しており、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - basデータセットで訓練されています。

📦 インストール

原READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。

💻 使用例

原READMEにコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの説明

"facebook/wav2vec2-xls-r-1b"がファインチューニングされました。

想定される用途と制限

詳細な情報は必要です。

トレーニングと評価データ

トレーニングデータ - Common voice Finnishのtrain.tsv、dev.tsv、およびother.tsv

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットが追加され、90-10の分割が使用されました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率（learning_rate）: 0.000045637994662983496
トレーニングバッチサイズ（train_batch_size）: 16
評価バッチサイズ（eval_batch_size）: 16
シード（seed）: 13
勾配累積ステップ数（gradient_accumulation_steps）: 2
総トレーニングバッチサイズ（total_train_batch_size）: 32
オプティマイザ（optimizer）: Adam（ベータ=(0.9,0.999)、イプシロン=1e-08）
学習率スケジューラのタイプ（lr_scheduler_type）: cosine_with_restarts
学習率スケジューラのウォームアップステップ数（lr_scheduler_warmup_steps）: 500
エポック数（num_epochs）: 70
混合精度トレーニング（mixed_precision_training）: Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率（Wer）
200	6.734100	1.605006	0.980456
400	1.011200	0.364686	0.442997
600	0.709300	0.300204	0.377850
800	0.469800	0.315612	0.405537
1000	0.464700	0.352494	0.372964
1200	0.421900	0.342533	0.368078
1400	0.401900	0.351398	0.343648
1600	0.429800	0.350570	0.348534
1800	0.352600	0.356601	0.358306
2000	0.387200	0.355814	0.356678
2200	0.362400	0.345573	0.355049

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評価コマンド

mozilla-foundation/common_voice_8_0のtestスプリットで評価するには

python eval.py --model_id sammy786/wav2vec2-xlsr-basaa --dataset mozilla-foundation/common_voice_8_0 --config bas --split test

🔧 技術詳細

このモデルは、自動音声認識タスクに特化したモデルであり、"facebook/wav2vec2-xls-r-1b"をベースにMOZILLA-FOUNDATION/COMMON_VOICE_8_0 - basデータセットでファインチューニングされています。トレーニングには特定のハイパーパラメータが使用され、学習率スケジューラやオプティマイザなどの設定が行われています。