Wav2Vec2_xls_r_openslr_Hi_V2オープンソースASRモデル - ヒンディー語の音声を高精度に識別！

Wav2vec2 Xls R Openslr Hi V2

LegolasTheElfによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをヒンディー語音声データセットでファインチューニングした自動音声認識(ASR)モデルです

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語音声認識タスクに特化して最適化されており、評価セットで低い単語誤り率と文字誤り率を示しています

ヒンディー語音声認識最適化

Harveenchadha/indic-voiceヒンディー語データセットで特化してファインチューニングされ、ヒンディー語音声特性に最適化されています

低誤り率

評価セットで0.3104の単語誤り率(WER)と0.0958の文字誤り率(CER)を達成

XLS-Rアーキテクチャベース

facebookのwav2vec2-xls-r-300m事前学習モデルを基盤としており、強力な音声特徴抽出能力を有しています

ヒンディー語音声からテキストへの変換

連続音声認識

音声内容の文字起こし

音声文字起こし

ヒンディー語会議議事録

ヒンディー語会議録音を自動的に文字記録に変換

約90.42%の精度(CERベース)

音声アシスタント

ヒンディー語音声アシスタントに音声認識能力を提供

教育応用

言語学習支援

学習者がヒンディー語発音を練習し即時フィードバックを得るのを支援

このモデルは、Harveenchadha/indic-voice データセットで facebook/wav2vec2-xls-r-300m をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声自動認識タスクに使用できます。事前学習済みモデルをファインチューニングして、特定の音声データセットに適合させています。

このセクションでは、原READMEに具体的なインストール手順が記載されていないため、省略します。

このセクションでは、原READMEに具体的なコード例が記載されていないため、省略します。

訓練中に使用されたハイパーパラメータは以下の通りです。

訓練損失	エポック	ステップ	文字誤り率 (Cer)	検証損失	単語誤り率 (Wer)
7.1097	0.48	300	0.9965	3.3989	1.0
3.0235	0.96	600	0.3163	1.3183	0.7977
1.1419	1.44	900	0.1913	0.6416	0.5543
0.8242	1.92	1200	0.1608	0.5063	0.4804
0.6876	2.56	1600	0.1387	0.4401	0.4280
0.5868	3.21	2000	0.1249	0.3940	0.3907
0.5285	3.85	2400	0.1200	0.3661	0.3763
0.5	4.49	2800	0.3528	0.3610	0.1136
0.4538	5.13	3200	0.3403	0.3485	0.1086
0.4165	5.77	3600	0.3335	0.3439	0.1062
0.3989	6.41	4000	0.3264	0.3340	0.1036
0.3679	7.05	4400	0.3256	0.3287	0.1013
0.3517	7.69	4800	0.3212	0.3223	0.1002
0.3357	8.33	5200	0.3173	0.3196	0.0986
0.3225	8.97	5600	0.3142	0.3177	0.0985
0.3057	9.62	6000	0.3199	0.3156	0.0975
0.2972	10.26	6400	0.3139	0.3128	0.0967
0.2881	10.9	6800	0.3184	0.3107	0.0957
0.2791	11.54	7200	0.3184	0.3104	0.0958