wav2vec2 - 3オープンソース音声認識モデル - 無料で利用可能、低誤り率で高精度な音声認識

Wav2vec2 3

chrisvinsenによって開発

facebook/wav2vec2-baseを微調整した音声認識モデルで、単語誤り率(WER)は1.0

ダウンロード数 16

リリース時間 : 5/22/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、微調整後に音声からテキストへの変換タスクに使用可能

低単語誤り率

評価データセットで1.0の単語誤り率(WER)を達成

wav2vec2アーキテクチャベース

facebook/wav2vec2-baseをベースモデルとして微調整

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議の録音を文字記録に変換

音声メモ

音声メモをテキストに変換

このモデルは、facebook/wav2vec2-base を None データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法は、モデルのライブラリに応じて異なります。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.7797	0.34	200	3.0703	1.0
2.8701	0.69	400	3.3128	1.0
2.8695	1.03	600	3.1333	1.0
2.8634	1.38	800	3.1634	1.0
2.8629	1.72	1000	3.0432	1.0
2.8652	2.07	1200	3.0300	1.0
2.8602	2.41	1400	3.1894	1.0
2.8622	2.75	1600	3.1950	1.0
2.8606	3.1	1800	3.0656	1.0
2.8605	3.44	2000	3.0614	1.0
2.8595	3.79	2200	3.0697	1.0
2.8504	4.13	2400	3.1404	1.0
2.8553	4.48	2600	3.0682	1.0
2.8585	4.82	2800	3.1393	1.0
2.8567	5.16	3000	3.1013	1.0
2.8539	5.51	3200	3.0740	1.0
2.8588	5.85	3400	3.0616	1.0
2.8509	6.2	3600	3.1032	1.0
2.8589	6.54	3800	3.1348	1.0
2.8505	6.88	4000	3.1514	1.0
2.8548	7.23	4200	3.1319	1.0
2.8466	7.57	4400	3.1412	1.0
2.8549	7.92	4600	3.1235	1.0
2.8532	8.26	4800	3.0751	1.0
2.8548	8.61	5000	3.0946	1.0
2.8513	8.95	5200	3.0840	1.0
2.845	9.29	5400	3.0896	1.0
2.8592	9.64	5600	3.1055	1.0
2.8453	9.98	5800	3.1124	1.0