wav2vec2-base-timit-demo-colab9オープンソース音声認識モデル - 無料で英語の音声をテキストに変換

Wav2vec2 Base Timit Demo Colab9

hassnainによって開発

このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。

ダウンロード数 16

リリース時間 : 5/1/2022

モデル概要

wav2vec2アーキテクチャに基づく音声認識モデルで、TIMITデータセットでファインチューニングされており、英語音声からテキストへの変換タスクに適しています。

wav2vec2アーキテクチャ採用

Facebook Researchが開発したwav2vec2ベースアーキテクチャを採用しており、優れた音声特徴抽出能力を有しています。

TIMITデータセットでファインチューニング

TIMIT音声データセットでファインチューニングされており、英語音声認識性能が最適化されています。

低単語誤り率

評価セットで低い単語誤り率(WER)を示しています。

英語音声認識

音声からテキストへの変換

音声文字起こし

英語音声の書き起こし

英語音声コンテンツをテキスト形式に変換

単語誤り率(WER)は1.0

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細な情報は今後追加予定です。

詳細な情報は今後追加予定です。

詳細な情報は今後追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.0683	1.42	500	3.2471	1.0
3.1349	2.85	1000	3.2219	1.0
3.1317	4.27	1500	3.2090	1.0
3.1262	5.7	2000	3.2152	1.0
3.1307	7.12	2500	3.2147	1.0
3.1264	8.55	3000	3.2072	1.0
3.1279	9.97	3500	3.2158	1.0
3.1287	11.4	4000	3.2190	1.0
3.1256	12.82	4500	3.2069	1.0
3.1254	14.25	5000	3.2134	1.0
3.1259	15.67	5500	3.2231	1.0
3.1269	17.09	6000	3.2005	1.0
3.1279	18.52	6500	3.1988	1.0
3.1246	19.94	7000	3.1929	1.0
3.128	21.37	7500	3.1864	1.0
3.1245	22.79	8000	3.1868	1.0
3.1266	24.22	8500	3.1852	1.0
3.1239	25.64	9000	3.1855	1.0
3.125	27.07	9500	3.1917	1.0
3.1233	28.49	10000	3.1929	1.0
3.1229	29.91	10500	3.1922	1.0