Wav2Vec2_xls_r_300m_hi_finalオープンソースインド語音声認識モデル - 高精度な認識でコミュニケーションを支援

Home

Wav2vec2 Xls R 300m Hi Final

Developed by LegolasTheElf

facebook/wav2vec2-xls-r-300mをファインチューニングしたヒンディー語音声認識モデルで、Openslr多言語コーパスとCommon Voice 7.0データセットでトレーニング

音声認識

Transformers

OtherOpen Source License:Apache-2.0 #ヒンディー語音声認識 #多言語ASR #低CER性能

Downloads 14

Release Time : 3/2/2022

Model Overview

これはヒンディー語に最適化された自動音声認識(ASR)モデルで、ヒンディー語音声をテキストに変換するタスクに適しています

Model Features

複数データセットでのトレーニング

Openslr多言語コーパスとCommon Voice 7.0データセットを組み合わせてトレーニングし、モデルの汎化能力を向上

低エラー率

評価データセットで31.37%の単語誤り率(WER)と9.72%の文字誤り率(CER)を達成

効率的なトレーニング

混合精度トレーニングと勾配蓄積技術を採用してトレーニング効率を最適化

Model Capabilities

ヒンディー語音声認識

音声からテキストへの変換

長い音声処理

Use Cases

音声文字起こし

ヒンディー語音声の文字起こし

ヒンディー語音声コンテンツをテキストに変換

テストデータセットで31.37%の単語誤り率を達成

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語対応音声アシスタントシステムのサポートに使用

🚀 Wav2Vec2_xls_r_300m_hi_final

このモデルは、'Openslr Multilingual and code-switching ASR challenge'データセットと'mozilla-foundation/common_voice_7_0'データセット上で、facebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3035
単語誤り率 (Wer): 0.3137
文字誤り率 (Cer): 0.0972

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。詳細な使用方法については、Hugging Faceのドキュメントを参照してください。

✨ 主な機能

自動音声認識タスクに最適化されたモデルです。
複数言語のデータセットを用いて訓練されています。

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

訓練と評価データ

詳細情報は後日提供予定です。

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
訓練バッチサイズ: 16
評価バッチサイズ: 32
シード: 42
勾配累積ステップ数: 4
総訓練バッチサイズ: 64
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 100
エポック数: 8
混合精度訓練: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
0.9821	0.64	400	0.5059	0.4783	0.1573
0.6861	1.28	800	0.4201	0.4247	0.1356
0.585	1.92	1200	0.3797	0.3811	0.1210
0.5193	2.56	1600	0.3577	0.3652	0.1152
0.4583	3.21	2000	0.3422	0.3519	0.1111
0.4282	3.85	2400	0.3261	0.3450	0.1071
0.3951	4.49	2800	0.3201	0.3325	0.1048
0.3619	5.13	3200	0.3167	0.3296	0.1030
0.345	5.77	3600	0.3157	0.3210	0.1013
0.338	6.41	4000	0.3051	0.3143	0.0982
0.3155	7.05	4400	0.3059	0.3154	0.0986
0.3057	7.69	4800	0.3035	0.3137	0.0972