wav2vec2-base-timit-demo-google-colabオープンソース音声認識モデル - 無料で英語の音声をテキストに変換する

Wav2vec2 Base Timit Demo Google Colab

Developed by atgarcia

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに適しています。

Downloads 19

Release Time : 5/17/2022

Model Overview

このモデルはwav2vec2-baseのファインチューン版で、英語音声認識タスク専用に設計されており、TIMITデータセットで優れた性能を発揮します。

効率的なファインチューニング

事前学習済みのwav2vec2-baseモデルを基にファインチューニングを行い、TIMITデータセットでの認識精度を大幅に向上させました。

低単語誤り率

評価セットで0.333の単語誤り率(WER)を達成し、優れた性能を示しています。

軽量

wav2vec2-baseアーキテクチャを採用しており、モデルサイズが適度で、リソースが限られた環境での展開に適しています。

英語音声認識

リアルタイム音声テキスト変換

高精度文字起こし

音声文字起こし

会議議事録

英語の会議録音を自動的にテキストに変換

66.7%の精度達成 (WER=0.333)

音声アシスタント

音声アシスタントの基礎認識エンジンとして利用

教育

発音評価

英語学習者の発音精度評価に使用

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5942	1.0	500	2.3849	1.0011
0.9765	2.01	1000	0.5907	0.5202
0.4424	3.01	1500	0.4547	0.4661
0.3008	4.02	2000	0.4194	0.4228
0.2316	5.02	2500	0.3933	0.4099
0.1921	6.02	3000	0.4532	0.3965
0.1561	7.03	3500	0.4315	0.3777
0.1378	8.03	4000	0.4463	0.3847
0.1222	9.04	4500	0.4402	0.3784
0.1076	10.04	5000	0.4253	0.3735
0.0924	11.04	5500	0.4844	0.3732
0.0866	12.05	6000	0.4758	0.3646
0.086	13.05	6500	0.6395	0.4594
0.0763	14.06	7000	0.4951	0.3647
0.0684	15.06	7500	0.4870	0.3577
0.0616	16.06	8000	0.5442	0.3591
0.0594	17.07	8500	0.5305	0.3606
0.0613	18.07	9000	0.5434	0.3546
0.0473	19.08	9500	0.4818	0.3532
0.0463	20.08	10000	0.5086	0.3514
0.042	21.08	10500	0.5017	0.3484
0.0365	22.09	11000	0.5129	0.3536
0.0336	23.09	11500	0.5411	0.3433
0.0325	24.1	12000	0.5307	0.3424
0.0282	25.1	12500	0.5261	0.3404
0.0245	26.1	13000	0.5306	0.3388
0.0257	27.11	13500	0.5242	0.3369
0.0234	28.11	14000	0.5216	0.3359
0.0221	29.12	14500	0.5255	0.3330