wav2vec2-xls-r-tf-left-right-trainerオープンソース音声認識モデル

Wav2vec2 Xls R Tf Left Right Trainer

hrdiptoによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、左右チャンネルの処理に対応しています。

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2-xls-r-300mアーキテクチャをファインチューニングした音声認識モデルで、左右チャンネルのオーディオ処理能力を特別に最適化しています。

左右チャンネル処理の最適化

左右チャンネルのオーディオ入力に対して特別に最適化された処理を行います。

効率的なファインチューニング

事前学習された大規模なwav2vec2-xls-rモデルを基に効率的にファインチューニングを行います。

低単語誤り率

評価セットで0.0037の低い単語誤り率を達成しました。

音声認識

左右チャンネルのオーディオ処理

高精度な文字起こし

音声文字起こし

会議録音の文字起こし

会議の録音を文字記録に変換します。

高い正確率での文字起こし結果

オーディオ内容分析

オーディオ内容を分析し、重要な情報を抽出します。

支援技術

リアルタイム字幕生成

動画やライブ配信に対してリアルタイムで字幕を生成します。

属性	詳細
学習率（learning_rate）	0.0001
訓練バッチサイズ（train_batch_size）	32
評価バッチサイズ（eval_batch_size）	8
乱数シード（seed）	42
オプティマイザ（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学習率スケジューラのタイプ（lr_scheduler_type）	線形（linear）
学習率スケジューラのウォームアップステップ数（lr_scheduler_warmup_steps）	1000
訓練エポック数（num_epochs）	30
混合精度訓練（mixed_precision_training）	ネイティブ自動混合精度（Native AMP）