wav2vec2-base-timitオープンソース音声認識モデル - 無料でデプロイして英語の音声を文字に変換する

Wav2vec2 Base Timit Demo Google Colab

Developed by dasolj

facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化

Downloads 127

Release Time : 6/27/2022

Model Overview

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク専用に設計され、TIMITデータセットで訓練されており、英語音声をテキストに変換可能

wav2vec2-baseベースのファインチューニング

強力なwav2vec2-baseを基盤に特定タスク向けに最適化

低単語誤り率

評価セットで0.3424の単語誤り率(WER)を達成

エンドツーエンド音声認識

生の音声入力を直接テキスト出力に変換

英語音声認識

音声からテキスト変換

自動音声転写

音声転写

会議議録の自動化

英語会議録音を自動的にテキスト記録に変換

単語誤り率約34%

音声メモ変換

英語音声メモを編集可能なテキストに変換

支援技術

リアルタイム字幕生成

英語動画コンテンツ向けにリアルタイム字幕を生成

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細な情報は後日追加予定です。

詳細な情報は後日追加予定です。

詳細な情報は後日追加予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5448	1.0	500	2.5044	1.0
1.0167	2.01	1000	0.5435	0.5278
0.4453	3.01	1500	0.4450	0.4534
0.3	4.02	2000	0.4401	0.4245
0.2304	5.02	2500	0.4146	0.4022
0.1889	6.02	3000	0.4241	0.3927
0.1573	7.03	3500	0.4545	0.3878
0.1363	8.03	4000	0.4936	0.3940
0.1213	9.04	4500	0.4964	0.3806
0.108	10.04	5000	0.4931	0.3826
0.0982	11.04	5500	0.5373	0.3778
0.0883	12.05	6000	0.4978	0.3733
0.0835	13.05	6500	0.5189	0.3728
0.0748	14.06	7000	0.4608	0.3692
0.068	15.06	7500	0.4827	0.3608
0.0596	16.06	8000	0.5022	0.3661
0.056	17.07	8500	0.5482	0.3646
0.0565	18.07	9000	0.5158	0.3573
0.0487	19.08	9500	0.4910	0.3513
0.0444	20.08	10000	0.5771	0.3580
0.045	21.08	10500	0.5160	0.3539
0.0363	22.09	11000	0.5367	0.3503
0.0313	23.09	11500	0.5773	0.3500
0.0329	24.1	12000	0.5683	0.3508
0.0297	25.1	12500	0.5355	0.3464
0.0272	26.1	13000	0.5317	0.3450
0.0256	27.11	13500	0.5602	0.3443
0.0242	28.11	14000	0.5586	0.3419
0.0239	29.12	14500	0.5501	0.3424