wav2vec2-large-xls-r-300m-bas-v1オープンソースモデル - 無料でデプロイしてバスク語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Bas V1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルを基に、バサ語(MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BASデータセット)でファインチューニングした自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #バサ語音声認識 #低単語誤り率 #多様なシナリオ対応

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはバサ語の自動音声認識タスクに特化しており、Common Voice 8テストセットで35.66%の単語誤り率(WER)と11.03%の文字誤り率(CER)を達成しました。

モデル特徴

バサ語音声認識

バサ語に最適化された音声認識能力

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300m事前学習モデルを基盤として使用

Common Voiceデータセットでファインチューニング

MOZILLA-FOUNDATION/COMMON_VOICE_8_0のバサ語データを使用してファインチューニング

モデル能力

バサ語音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

バサ語音声文字起こし

バサ語音声をテキストに変換

テストセットでWER35.66%、CER11.03%を達成

音声アシスタント

バサ語音声アシスタント

バサ語インタラクションをサポートする音声アシスタントアプリケーション

🚀 wav2vec2-large-xls-r-300m-bas-v1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BASデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5997
単語誤り率 (Wer): 0.3870

✨ 主な機能

自動音声認識タスクに対応
MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BASデータセットで訓練

📚 ドキュメント

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bas-v1 --dataset mozilla-foundation/common_voice_8_0 --config bas --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合 Basaa (bas) 言語はspeech-recognition-community-v2/dev_dataでは利用できません。

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率	0.000111
訓練バッチサイズ	16
評価バッチサイズ	8
シード	42
勾配累積ステップ	2
総訓練バッチサイズ	32
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類	線形
学習率スケジューラのウォームアップステップ	500
エポック数	100
混合精度訓練	ネイティブAMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.7076	5.26	200	3.6361	1.0
3.1657	10.52	400	3.0101	1.0
2.3987	15.78	600	0.9125	0.6774
1.0079	21.05	800	0.6477	0.5352
0.7392	26.31	1000	0.5432	0.4929
0.6114	31.57	1200	0.5498	0.4639
0.5222	36.83	1400	0.5220	0.4561
0.4648	42.1	1600	0.5586	0.4289
0.4103	47.36	1800	0.5337	0.4082
0.3692	52.62	2000	0.5421	0.3861
0.3403	57.88	2200	0.5549	0.4096
0.3011	63.16	2400	0.5833	0.3925
0.2932	68.42	2600	0.5674	0.3815
0.2696	73.68	2800	0.5734	0.3889
0.2496	78.94	3000	0.5968	0.3985
0.2289	84.21	3200	0.5888	0.3893
0.2091	89.47	3400	0.5849	0.3852
0.2005	94.73	3600	0.5938	0.3875
0.1876	99.99	3800	0.5997	0.3870