wav2vec2-large-xlsr-persian-v3オープンソースモデル - 無料で高精度なペルシャ語音声認識を実現

Wav2vec2 Large Xlsr Persian V3

masoumehbによって開発

これはfacebook/wav2vec2-large-xlsr-53モデルをcommon_voiceデータセットでファインチューニングしたペルシャ語音声認識モデルです。

ダウンロード数 21

リリース時間 : 5/24/2022

モデル概要

このモデルは主にペルシャ語の自動音声認識(ASR)タスクに使用され、wav2vec2アーキテクチャに基づいて最適化されています。

ペルシャ語最適化

ペルシャ語音声認識タスクに特化してファインチューニングされています

wav2vec2アーキテクチャベース

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用

Common Voiceデータセットでトレーニング

Common Voiceデータセットを使用してファインチューニング

ペルシャ語音声認識

音声からテキストへの変換

音声文字起こし

ペルシャ語音声文字起こし

ペルシャ語音声をテキストに変換

音声アシスタント

ペルシャ語音声コマンド認識

ペルシャ語音声アシスタントの基本的な認識能力に使用

ハイパーパラメータ	詳細
学習率 (learning_rate)	0.0003
トレーニングバッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
勾配蓄積ステップ (gradient_accumulation_steps)	2
総トレーニングバッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	30
混合精度トレーニング (mixed_precision_training)	Native AMP