wav2vec2-large-xls-r-300m-hindiオープンソースモデル - 無料でヒンディー語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Hindi

infinitejoyによって開発

これはFacebookのwav2vec2-xls-r-300mモデルをヒンディー語音声データセットでファインチューニングした自動音声認識(ASR)モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #多方言サポート #低リソース最適化

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語音声認識タスク専用に設計され、Common Voice 7ヒンディー語データセットでファインチューニングされています

モデル特徴

ヒンディー語音声認識

ヒンディー語に最適化された音声認識能力

XLS-Rアーキテクチャベース

Facebookの強力なXLS-R 3億パラメータモデルを基盤として使用

Common Voiceデータセットでファインチューニング

Mozilla Common Voice 7.0ヒンディー語データセットでファインチューニングを実施

モデル能力

ヒンディー語音声からテキストへ

自動音声認識

音声内容の書き起こし

使用事例

音声書き起こし

ヒンディー語音声書き起こし

ヒンディー語音声内容をテキストに変換

テストWER 100、テストCER 92.98

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語音声アシスタントや音声制御システムの音声認識コンポーネントとして使用

🚀 wav2vec2-large-xls-r-300m-hindi

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - HIデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5414
単語誤り率 (Wer): 1.0194

📚 ドキュメント

モデルの概要

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 7.5e-05
学習バッチサイズ: 32
評価バッチサイズ: 32
乱数シード: 42
オプティマイザ: Adam（ベータ=(0.9,0.999)、イプシロン=1e-08）
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 2000
エポック数: 100.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.6095	3.38	500	4.5881	0.9999
3.3396	6.76	1000	3.3301	1.0001
2.0061	10.14	1500	1.2096	1.0063
1.523	13.51	2000	0.7836	1.0051
1.3868	16.89	2500	0.6837	1.0080
1.2807	20.27	3000	0.6568	1.0112
1.231	23.65	3500	0.6120	1.0105
1.1673	27.03	4000	0.5972	1.0089
1.1416	30.41	4500	0.5780	1.0132
1.0738	33.78	5000	0.5806	1.0123
1.0771	37.16	5500	0.5586	1.0067
1.0287	40.54	6000	0.5464	1.0058
1.0106	43.92	6500	0.5407	1.0062
0.9538	47.3	7000	0.5334	1.0089
0.9607	50.68	7500	0.5395	1.0110
0.9108	54.05	8000	0.5502	1.0137
0.9252	57.43	8500	0.5498	1.0062
0.8943	60.81	9000	0.5448	1.0158
0.8728	64.19	9500	0.5257	1.0113
0.8577	67.57	10000	0.5550	1.0178
0.8332	70.95	10500	0.5607	1.0166
0.8174	74.32	11000	0.5429	1.0145
0.8168	77.7	11500	0.5561	1.0116
0.7872	81.08	12000	0.5478	1.0164
0.7707	84.46	12500	0.5412	1.0216
0.7742	87.84	13000	0.5391	1.0207
0.7594	91.22	13500	0.5379	1.0208
0.7678	94.59	14000	0.5415	1.0198
0.7502	97.97	14500	0.5409	1.0191

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

モデル情報

属性	詳情
モデルタイプ	XLS-R-300M - Hindi
学習データ	mozilla-foundation/common_voice_7_0
タスク	自動音声認識 (Automatic Speech Recognition)
評価指標	単語誤り率 (Wer): 1.0194、文字誤り率 (CER): 92.98