Wav2Vec2_xls_r_300m_hi_finalオープンソースインド語音声認識モデル - 高精度な認識でコミュニケーションを支援

ホーム

Wav2vec2 Xls R 300m Hi Final

LegolasTheElfによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたヒンディー語音声認識モデルで、Openslr多言語コーパスとCommon Voice 7.0データセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #多言語ASR #低CER性能

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

これはヒンディー語に最適化された自動音声認識(ASR)モデルで、ヒンディー語音声をテキストに変換するタスクに適しています

モデル特徴

複数データセットでのトレーニング

Openslr多言語コーパスとCommon Voice 7.0データセットを組み合わせてトレーニングし、モデルの汎化能力を向上

低エラー率

評価データセットで31.37%の単語誤り率(WER)と9.72%の文字誤り率(CER)を達成

効率的なトレーニング

混合精度トレーニングと勾配蓄積技術を採用してトレーニング効率を最適化

モデル能力

ヒンディー語音声認識

音声からテキストへの変換

長い音声処理

使用事例

音声文字起こし

ヒンディー語音声の文字起こし

ヒンディー語音声コンテンツをテキストに変換

テストデータセットで31.37%の単語誤り率を達成

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語対応音声アシスタントシステムのサポートに使用

🚀 Wav2Vec2_xls_r_300m_hi_final

このモデルは、'Openslr Multilingual and code-switching ASR challenge'データセットと'mozilla-foundation/common_voice_7_0'データセット上で、facebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3035
単語誤り率 (Wer): 0.3137
文字誤り率 (Cer): 0.0972

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。詳細な使用方法については、Hugging Faceのドキュメントを参照してください。

✨ 主な機能

自動音声認識タスクに最適化されたモデルです。
複数言語のデータセットを用いて訓練されています。

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

訓練と評価データ

詳細情報は後日提供予定です。

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
訓練バッチサイズ: 16
評価バッチサイズ: 32
シード: 42
勾配累積ステップ数: 4
総訓練バッチサイズ: 64
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 100
エポック数: 8
混合精度訓練: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
0.9821	0.64	400	0.5059	0.4783	0.1573
0.6861	1.28	800	0.4201	0.4247	0.1356
0.585	1.92	1200	0.3797	0.3811	0.1210
0.5193	2.56	1600	0.3577	0.3652	0.1152
0.4583	3.21	2000	0.3422	0.3519	0.1111
0.4282	3.85	2400	0.3261	0.3450	0.1071
0.3951	4.49	2800	0.3201	0.3325	0.1048
0.3619	5.13	3200	0.3167	0.3296	0.1030
0.345	5.77	3600	0.3157	0.3210	0.1013
0.338	6.41	4000	0.3051	0.3143	0.0982
0.3155	7.05	4400	0.3059	0.3154	0.0986
0.3057	7.69	4800	0.3035	0.3137	0.0972