Gram-Vaani-Harveen-Chadda-Fine-Tuningオープンソース音声認識モデル - 無料でヒンディー語の音声をテキストに変換

Gram Vaani Harveen Chadda Fine Tuning

nnair25によって開発

これはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200をベースにファインチューニングされた音声認識モデルで、ヒンディー語音声からテキストへの変換タスクをサポートします。

ダウンロード数 30

リリース時間 : 4/12/2022

モデル概要

このモデルはヒンディー語に最適化された自動音声認識(ASR)モデルで、元のモデルを基にファインチューニングされており、ヒンディー語音声の文字起こしシナリオに適しています。

ヒンディー語最適化

ヒンディー語音声に特化してファインチューニングされており、認識精度が向上しています

効率的なトレーニング

比較的小さなトレーニングバッチ(16)を使用して良好な認識効果を実現

オープンソースライセンス

MITライセンスを採用しており、商業用途や研究用途が許可されています

ヒンディー語音声認識

音声からテキストへの変換

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語音声コンテンツをテキストに変換

単語誤り率0.359

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語音声アシスタントの基本認識モジュールとして使用

パラメータ	値
学習率 (learning_rate)	0.0003
トレーニングバッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配蓄積ステップ数 (gradient_accumulation_steps)	2
総トレーニングバッチサイズ (total_train_batch_size)	16
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラのタイプ (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	30