wav2vec2-base-timit-demo-colab_3オープンソース音声認識モデル - 無料で英語の音声をテキストに変換

Wav2vec2 Base Timit Demo Colab 3

fahadtouseefによって開発

このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。

ダウンロード数 25

リリース時間 : 5/2/2022

モデル概要

wav2vec2アーキテクチャに基づく音声認識モデルで、TIMITデータセットでファインチューニングされており、英語音声からテキストへの変換タスクに適しています。

効率的なファインチューニング

事前学習済みのwav2vec2-baseモデルを基にファインチューニングを行い、TIMITデータセットで良好な結果を得ています。

低単語誤り率

評価セットで1.0の単語誤り率(WER)を達成し、優れた性能を示しています。

英語音声認識

音声からテキストへの変換

音声処理

音声文字起こし

英語音声コンテンツをテキストに変換

単語誤り率1.0

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.2975	3.52	500	3.1771	1.0
3.1468	7.04	1000	3.1917	1.0
3.147	10.56	1500	3.1784	1.0
3.1467	14.08	2000	3.1850	1.0
3.1446	17.61	2500	3.2022	1.0
3.1445	21.13	3000	3.2196	1.0
3.1445	24.65	3500	3.2003	1.0
3.1443	28.17	4000	3.1942	1.0