alphaDelayオープンソース音声認識モデル - wav2vec2に基づく微調整、低エラー率で高精度な音声認識

Alphadelay

renBaikauによって開発

facebook/wav2vec2-baseを微調整した音声認識モデル、単語誤り率(WER)は1.0

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはfacebook/wav2vec2-baseアーキテクチャを微調整した音声認識(ASR)モデルで、音声をテキストに変換するタスクに適しています。

wav2vec2アーキテクチャベース

実績のあるwav2vec2-baseアーキテクチャを採用し、優れた音声特徴抽出能力を備えています

微調整による最適化

ベースモデルに対して15エポックの微調整トレーニングを実施し、特定シナリオでの性能を最適化しました

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

音声メモ

音声メモを検索可能なテキストに変換

パラメータ	値
学習率 (learning_rate)	0.0002
学習バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	20
エポック数 (num_epochs)	15
混合精度学習 (mixed_precision_training)	Native AMP