wav2vec2-large-xls-r-300m-hi-cv8オープンソースモデル - 無料でヒンディー語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Hi Cv8

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをヒンディー語Common Voice 8データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #低単語誤り率 #多様なシナリオへの適応

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語音声認識タスク専用で、Common Voice 8テストセットで36.29%の単語誤り率(WER)と11.93%の文字誤り率(CER)を達成しました。

モデル特徴

ヒンディー語音声認識

ヒンディー語に最適化された音声認識モデル

大規模事前学習モデルベース

facebookのwav2vec2-xls-r-300mモデルをファインチューニングしており、強力な音声特徴抽出能力を有する

Common Voiceデータセットで良好な性能

Common Voice 8テストセットで36.29%の単語誤り率を達成

モデル能力

ヒンディー語音声からテキストへの変換

長い音声の認識

会話音声処理

使用事例

音声文字起こし

ヒンディー語音声から文字へ

ヒンディー語音声コンテンツを文字に変換

単語誤り率36.29%、文字誤り率11.93%

音声アシスタント

ヒンディー語音声アシスタント

ヒンディー語対応音声アシスタントの開発に使用

🚀 wav2vec2-large-xls-r-300m-hi-cv8

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI データセットで facebook/wav2vec2-xls-r-300m をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.6510
単語誤り率 (Wer): 0.3179

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0 のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

speech-recognition-community-v2/dev_data で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset speech-recognition-community-v2/dev_data --config hi --split validation --chunk_length_s 10 --stride_length_s 1

注意: speech-recognition-community-v2/dev_data にヒンディー語は含まれていません。

✨ 主な機能

自動音声認識タスクに適用可能です。
モデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI データセットで訓練されています。

🔧 技術詳細

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
num_epochs: 50
mixed_precision_training: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.5576	1.04	200	6.6594	1.0
4.4069	2.07	400	3.6011	1.0
3.4273	3.11	600	3.3370	1.0
2.1108	4.15	800	1.0641	0.6562
0.8817	5.18	1000	0.7178	0.5172
0.6508	6.22	1200	0.6612	0.4839
0.5524	7.25	1400	0.6458	0.4889
0.4992	8.29	1600	0.5791	0.4382
0.4669	9.33	1800	0.6039	0.4352
0.4441	10.36	2000	0.6276	0.4297
0.4172	11.4	2200	0.6183	0.4474
0.3872	12.44	2400	0.5886	0.4231
0.3692	13.47	2600	0.6448	0.4399
0.3385	14.51	2800	0.6344	0.4075
0.3246	15.54	3000	0.5896	0.4087
0.3026	16.58	3200	0.6158	0.4016
0.284	17.62	3400	0.6038	0.3906
0.2682	18.65	3600	0.6165	0.3900
0.2577	19.69	3800	0.5754	0.3805
0.2509	20.73	4000	0.6028	0.3925
0.2426	21.76	4200	0.6335	0.4138
0.2346	22.8	4400	0.6128	0.3870
0.2205	23.83	4600	0.6223	0.3831
0.2104	24.87	4800	0.6122	0.3781
0.1992	25.91	5000	0.6467	0.3792
0.1916	26.94	5200	0.6277	0.3636
0.1835	27.98	5400	0.6317	0.3773
0.1776	29.02	5600	0.6124	0.3614
0.1751	30.05	5800	0.6475	0.3628
0.1662	31.09	6000	0.6266	0.3504
0.1584	32.12	6200	0.6347	0.3532
0.1494	33.16	6400	0.6636	0.3491
0.1457	34.2	6600	0.6334	0.3507
0.1427	35.23	6800	0.6397	0.3442
0.1397	36.27	7000	0.6468	0.3496
0.1283	37.31	7200	0.6291	0.3416
0.1255	38.34	7400	0.6652	0.3461
0.1195	39.38	7600	0.6587	0.3342
0.1169	40.41	7800	0.6478	0.3319
0.1126	41.45	8000	0.6280	0.3291
0.1112	42.49	8200	0.6434	0.3290
0.1069	43.52	8400	0.6542	0.3268
0.1027	44.56	8600	0.6536	0.3239
0.0993	45.6	8800	0.6622	0.3257
0.0973	46.63	9000	0.6572	0.3192
0.0911	47.67	9200	0.6522	0.3175
0.0897	48.7	9400	0.6521	0.3200
0.0905	49.74	9600	0.6510	0.3179