wav2vec2 - 19オープンソース音声認識モデル - 自動音声文字起こしタスクを無料でサポート

Wav2vec2 19

chrisvinsenによって開発

facebook/wav2vec2-baseを微調整した音声認識モデルで、自動音声文字変換タスクをサポート

ダウンロード数 18

リリース時間 : 6/1/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、微調整後に音声をテキストに変換するタスクに使用可能

効率的な微調整

wav2vec2-base事前学習モデルを基に微調整し、特定の音声認識タスクの性能を向上

低単語誤り率

評価セットで0.4499の単語誤り率(WER)を達成し、良好な性能を発揮

音声認識

自動音声文字変換

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

単語誤り率0.4499

音声メモ

音声メモを検索可能なテキストに変換

このモデルは、facebook/wav2vec2-base を None データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.4816	2.74	400	1.0717	0.8927
0.751	5.48	800	0.7155	0.7533
0.517	8.22	1200	0.7039	0.6675
0.3988	10.96	1600	0.5935	0.6149
0.3179	13.7	2000	0.6477	0.5999
0.2755	16.44	2400	0.5549	0.5798
0.2343	19.18	2800	0.6626	0.5798
0.2103	21.92	3200	0.6488	0.5674
0.1877	24.66	3600	0.5874	0.5339
0.1719	27.4	4000	0.6354	0.5389
0.1603	30.14	4400	0.6612	0.5210
0.1401	32.88	4800	0.6676	0.5131
0.1286	35.62	5200	0.6366	0.5075
0.1159	38.36	5600	0.6064	0.4977
0.1084	41.1	6000	0.6530	0.4835
0.0974	43.84	6400	0.6118	0.4853
0.0879	46.58	6800	0.6316	0.4770
0.0815	49.32	7200	0.6125	0.4664
0.0708	52.05	7600	0.6449	0.4683
0.0651	54.79	8000	0.6068	0.4571
0.0555	57.53	8400	0.6305	0.4499