wav2vec2-base-timit-demo-colab971オープンソース音声認識モデル - 英語の音声からテキストへの変換に特化

Wav2vec2 Base Timit Demo Colab971

hassnainによって開発

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。

ダウンロード数 23

リリース時間 : 5/2/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク専用に設計されており、TIMITデータセットで訓練され、英語音声をテキストに変換できます。

wav2vec2アーキテクチャベース

Facebookのwav2vec2-baseアーキテクチャを採用しており、強力な音声特徴抽出能力を備えています。

TIMITデータセットでファインチューニング

TIMIT音声データセットでファインチューニングされており、英語音声認識タスクに特化しています。

比較的低い単語誤り率

評価セットで0.4448の単語誤り率(WER)を達成し、良好な性能を示しています。

英語音声認識

音声からテキストへの変換

音声文字起こし

英語音声の文字起こし

英語音声コンテンツをテキスト形式に変換

単語誤り率0.4448

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.9461	1.77	500	3.2175	1.0
2.5387	3.53	1000	1.2239	0.7851
0.9632	5.3	1500	0.7275	0.6352
0.6585	7.07	2000	0.6218	0.5896
0.4875	8.83	2500	0.5670	0.5651
0.397	10.6	3000	0.5796	0.5487
0.3298	12.37	3500	0.5870	0.5322
0.2816	14.13	4000	0.5796	0.5016
0.2396	15.9	4500	0.5956	0.5040
0.2019	17.67	5000	0.5911	0.4847
0.1845	19.43	5500	0.6050	0.4800
0.1637	21.2	6000	0.6518	0.4927
0.1428	22.97	6500	0.6247	0.4645
0.1319	24.73	7000	0.6592	0.4711
0.1229	26.5	7500	0.6526	0.4556
0.1111	28.27	8000	0.6551	0.4448