wav2vec2-base-timit-demo-colab10オープンソース音声認識モデル - 英語音声を高精度でテキストに変換

Wav2vec2 Base Timit Demo Colab10

sameearif88によって開発

このモデルはfacebook/wav2vec2-baseをTIMITデータセットで微調整した音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。

ダウンロード数 16

リリース時間 : 5/1/2022

モデル概要

これは英語音声認識(ASR)のためのモデルで、wav2vec2アーキテクチャを基に微調整されており、英語音声をテキストに変換できます。

wav2vec2アーキテクチャ採用

Facebookのwav2vec2-baseモデルアーキテクチャを採用しており、優れた音声特徴抽出能力を有しています

微調整による最適化

TIMITデータセットで微調整されており、英語音声認識タスク向けに最適化されています

比較的軽量

large版ではなくbase版を基にしており、リソースが限られた環境での展開に適しています

英語音声認識

音声からテキストへの変換

連続音声認識

音声文字起こし

英語音声のテキスト化

英語音声コンテンツを文字記録に変換

単語誤り率(WER)は0.3425

教育技術

英語発音評価

英語学習者の発音評価システムに使用可能

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.9891	3.52	500	3.1554	1.0
1.71	7.04	1000	0.7122	0.5811
0.6164	10.56	1500	0.5149	0.4880
0.4188	14.08	2000	0.4726	0.4344
0.3038	17.61	2500	0.4765	0.4092
0.2312	21.13	3000	0.4387	0.3765
0.1867	24.65	3500	0.4411	0.3583
0.1582	28.17	4000	0.4460	0.3425