wav2vec2-large-xls-r-300m-hindiオープンソースモデル - 無料デプロイでヒンディー語音声認識をサポート

Wav2vec2 Large Xls R 300m Hindi

Bharathdamuによって開発

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、音声認識タスクに使用されます。

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはwav2vec2アーキテクチャに基づく音声認識モデルで、特にヒンディー語向けにファインチューニングされています。

XLS-Rアーキテクチャベース

Facebookのwav2vec2-XLS-R-300Mモデルをベースとしており、強力な音声特徴抽出能力を備えています

ヒンディー語最適化

汎用音声データセットでヒンディー語向けに特別にファインチューニングされています

大規模事前学習

3億パラメータの大規模事前学習モデルをベースとしており、優れた汎化能力を有しています

音声認識

音声からテキストへの変換

ヒンディー語音声処理

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語音声をテキストに変換

音声アシスタント

ヒンディー語音声アシスタント

ヒンディー語をサポートする音声アシスタントアプリケーションの構築

ハイパーパラメータ	値
learning_rate	0.0003
train_batch_size	16
eval_batch_size	8
seed	42
gradient_accumulation_steps	2
total_train_batch_size	32
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
lr_scheduler_warmup_steps	500
num_epochs	30
mixed_precision_training	Native AMP