wav2vec2-base-timit-ali-hasan-colab-EX2オープンソース音声認識モデルは、TIMITデータセットでの学習効果が良好です。

Wav2vec2 Base Timit Ali Hasan Colab EX2

Developed by ali221000262

facebook/wav2vec2-baseをベースにファインチューニングした音声認識モデルで、TIMITデータセットで訓練され、評価セットのWERは0.4458

Downloads 23

Release Time : 4/30/2022

Model Overview

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、英語音声からテキストへの変換タスクに適しています

効率的なファインチューニング

事前訓練済みのwav2vec2-baseモデルを基にファインチューニングを行い、特定タスクでの性能を向上させています

中規模

baseサイズのwav2vec2アーキテクチャを採用し、性能と計算リソースのバランスを取っています

英語音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

英語の会議録音を文字記録に変換

単語誤り率0.4458

音声メモ

英語の音声メモをテキストに変換

パラメータ	値
学習率 (learning_rate)	0.0005
トレーニングバッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラのタイプ (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	30
混合精度トレーニング (mixed_precision_training)	Native AMP