wav2vec2ヒンディー語オープンソース音声認識モデル - 高精度な認識で音声コンテンツ処理をサポート

Wav2vec2hindia

SAGAR4REALによって開発

facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデル

ダウンロード数 22

リリース時間 : 3/28/2022

モデル概要

このモデルはインド言語の音声認識タスク向けに最適化されたバージョンで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされています

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300mをベースモデルとして使用し、強力な音声特徴抽出能力を備えています

インド言語向け最適化

特にインド言語向けにファインチューニングされており、関連言語の認識精度向上が期待できます

効率的なトレーニング設定

混合精度トレーニングや勾配蓄積などの技術を採用し、トレーニング効率を最適化しています

音声認識

音声からテキストへの変換

インド言語処理

音声文字起こし

インド言語音声のテキスト化

インド言語の音声コンテンツをテキストに変換します

音声アシスタント

インド言語音声インタラクション

インド言語ユーザー向けの音声インタラクション機能を提供します

ハイパーパラメータ	値
learning_rate	0.0003
train_batch_size	16
eval_batch_size	8
seed	42
gradient_accumulation_steps	2
total_train_batch_size	32
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type	linear
lr_scheduler_warmup_steps	500
num_epochs	30
mixed_precision_training	Native AMP