wav2vec2-xls-r-300m-ur-cv9-with-lmオープンソースモデル - 高精度ウルドゥー語音声自動認識

ホーム

Wav2vec2 Xls R 300m Ur Cv9 With Lm

anuragshasによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをウルドゥー語音声データセットでファインチューニングした自動音声認識(ASR)モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #低い単語誤り率 #多言語サポート

ダウンロード数 18

リリース時間 : 5/4/2022

モデル概要

これはウルドゥー語に最適化された音声認識モデルで、Common Voice 9.0ウルドゥー語データセットで訓練されており、ウルドゥー語音声をテキストに変換できます

モデル特徴

ウルドゥー語最適化

ウルドゥー語音声認識タスクに特化してファインチューニングされています

高性能

Common Voiceテストセットで23.75%の単語誤り率(WER)と8.31%の文字誤り率(CER)を達成

XLS-Rアーキテクチャ採用

Facebookの強力なXLS-R(クロスリンガル音声表現)アーキテクチャを採用

モデル能力

ウルドゥー語音声認識

音声からテキストへの変換

自動文字起こし

使用事例

音声文字起こし

ウルドゥー語音声文字起こし

ウルドゥー語音声コンテンツをテキストに変換

76.25%の精度(WER 23.75%)

音声アシスタント

ウルドゥー語音声コマンド認識

ウルドゥー語音声アシスタントやコマンド制御システムに使用

🚀 XLS - R - 300M - Urdu

このモデルは、自動音声認識タスクに特化したモデルで、MOZILLA - FOUNDATION/COMMON_VOICE_9_0 - URデータセットで微調整されています。評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) をMOZILLA - FOUNDATION/COMMON_VOICE_9_0 - URデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4147
Wer: 0.3172
Cer: 0.1050

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 7.5e - 05
学習バッチサイズ: 64
評価バッチサイズ: 64
シード: 42
勾配累積ステップ: 2
総学習バッチサイズ: 128
オプティマイザ: Adam（ベータ=(0.9,0.999)、イプシロン=1e - 08）
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップ比率: 0.1
学習ステップ: 5108
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	Wer	Cer
3.2894	7.83	400	3.1501	1.0	1.0
1.8586	15.68	800	0.8871	0.6721	0.2402
1.3431	23.52	1200	0.5813	0.5502	0.1939
1.2052	31.37	1600	0.4956	0.4788	0.1665
1.1097	39.21	2000	0.4447	0.4143	0.1397
1.0528	47.06	2400	0.4439	0.3961	0.1333
0.9939	54.89	2800	0.4348	0.4014	0.1379
0.9441	62.74	3200	0.4236	0.3653	0.1223
0.913	70.58	3600	0.4309	0.3475	0.1157
0.8678	78.43	4000	0.4270	0.3337	0.1110
0.8414	86.27	4400	0.4158	0.3220	0.1070
0.817	94.12	4800	0.4185	0.3231	0.1072