wav2vec2-urduオープンソースウルドゥー語音声認識モデル - 無料で高精度な音声から文字への変換を実現

ホーム

Wav2vec2 Urdu

kingabzproによって開発

wav2vec2アーキテクチャに基づくウルドゥー語自動音声認識モデル、Common Voiceデータセットでファインチューニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #低リソースファインチューニング #多方言対応

ダウンロード数 101

リリース時間 : 3/2/2022

モデル概要

これはウルドゥー語に最適化された自動音声認識(ASR)モデルで、Facebookのwav2vec2アーキテクチャに基づき、Common Voiceウルドゥー語データセットでファインチューニングされています。

モデル特徴

ウルドゥー語最適化

ウルドゥー語音声認識タスクに特化して最適化

wav2vec2アーキテクチャ採用

Facebookの強力なwav2vec2アーキテクチャを採用し、優れた音声特徴抽出能力を有する

少数サンプルファインチューニング

限られたウルドゥー語音声データ(0.58時間)でファインチューニング

モデル能力

ウルドゥー語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声転写

ウルドゥー語音声転写

ウルドゥー語音声をテキストに変換

単語誤り率57.47%、文字誤り率32.68%

音声アシスタント

ウルドゥー語音声コマンド認識

ウルドゥー語音声アシスタントや制御システムの音声コマンド認識に使用

🚀 wav2vec2-large-xls-r-300m-Urdu

このモデルは、common_voiceデータセット上でHarveenchadha/vakyansh-wav2vec2-urdu-urm-60をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

Wer: 0.5747
Cer: 0.3268

✨ 主な機能

自動音声認識 (Automatic Speech Recognition)
ロバストな音声イベント検出 (Robust Speech Event)
Hugging Faceの音声認識ランキング (HF ASR Leaderboard)

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル概要

学習データセットと検証データセットは0.58時間です。少ないデータ量でモデルを学習するのは難しかったため、vakyansh-wav2vec2-urdu-urm-60のチェックポイントを使用してwav2vec2モデルをファインチューニングすることにしました。

学習手順

サンプル数が少ないため、Harveenchadha/vakyansh-wav2vec2-urdu-urm-60をベースに学習を行いました。

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 64
評価バッチサイズ (eval_batch_size): 8
シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 128
オプティマイザ (optimizer): Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 100
エポック数 (num_epochs): 100
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	Wer	Cer
4.3054	16.67	50	9.0055	0.8306	0.4869
2.0629	33.33	100	9.5849	0.6061	0.3414
0.8966	50.0	150	4.8686	0.6052	0.3426
0.4197	66.67	200	12.3261	0.5817	0.3370
0.294	83.33	250	11.9653	0.5712	0.3328
0.2329	100.0	300	7.6846	0.5747	0.3268

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

モデル指標

プロパティ (Property)	詳細 (Details)
モデルタイプ (Model Type)	wav2vec2-large-xls-r-300m-Urdu
学習データ (Training Data)	mozilla-foundation/common_voice_8_0
評価指標 (Metrics)	Wer: 0.5747, Cer: 0.3268