wav2vec2-large-xls-r-300m-as-v9オープンソースモデル - アッサム語の自動音声認識をサポート

ホーム

Wav2vec2 Large Xls R 300m As V9

DrishtiSharmaによって開発

facebook/wav2vec2-xls-r-300mをベースに、アッサム語(Common Voice 8.0)データセットでファインチューニングした自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #アッサム語音声認識 #低リソース言語処理 #XLS - Rアーキテクチャ最適化

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはアッサム語用の自動音声認識(ASR)モデルで、wav2vec2アーキテクチャの大規模事前学習モデルをファインチューニングして作成され、音声をテキストに変換するタスクに適しています。

モデル特徴

アッサム語最適化

アッサム語に特化してファインチューニングされ、この言語で良好な認識性能を持ちます。

大規模事前学習基盤

facebook/wav2vec2-xls-r-300m事前学習モデルをベースにしており、強力な音声特徴抽出能力を持っています。

多シーン適応

Common Voiceデータセットで学習され、様々な音声シーンに適応できます。

モデル能力

アッサム語音声認識

音声をテキストに変換

自動音声文字起こし

使用事例

音声文字起こし

アッサム語音声文字起こし

アッサム語の音声内容をテキストに変換します。

Common Voice 8.0テストセットでのWERは61.64%です。

音声アシスタント

アッサム語音声インタラクション

アッサム語の音声指令認識をサポートします。

🚀 wav2vec2-large-xls-r-300m-as-v9

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.1679
単語誤り率 (Wer): 0.5761

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のテスト分割で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-as-v9 --dataset mozilla-foundation/common_voice_8_0 --config as --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合アッサム語 (as) はspeech-recognition-community-v2/dev_dataで利用できません。

✨ 主な機能

このモデルは自動音声認識 (Automatic Speech Recognition) タスクに特化しており、特定のデータセットでの評価結果が提供されています。

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.000111
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 300
エポック数 (num_epochs): 200
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
8.3852	10.51	200	3.6402	1.0
3.5374	21.05	400	3.3894	1.0
2.8645	31.56	600	1.3143	0.8303
1.1784	42.1	800	0.9417	0.6661
0.7805	52.62	1000	0.9292	0.6237
0.5973	63.15	1200	0.9489	0.6014
0.4784	73.67	1400	0.9916	0.5962
0.4138	84.21	1600	1.0272	0.6121
0.3491	94.72	1800	1.0412	0.5984
0.3062	105.26	2000	1.0769	0.6005
0.2707	115.77	2200	1.0708	0.5752
0.2459	126.31	2400	1.1285	0.6009
0.2234	136.82	2600	1.1209	0.5949
0.2035	147.36	2800	1.1348	0.5842
0.1876	157.87	3000	1.1480	0.5872
0.1669	168.41	3200	1.1496	0.5838
0.1595	178.92	3400	1.1721	0.5778
0.1505	189.46	3600	1.1654	0.5744
0.1486	199.97	3800	1.1679	0.5761