wav2vec2-17オープンソース音声認識モデル - 自動音声からテキストへのタスクを無料でサポート

Wav2vec2 17

chrisvinsenによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、自動音声テキスト変換タスクをサポートします。

ダウンロード数 17

リリース時間 : 6/1/2022

モデル概要

このモデルはfacebook/wav2vec2-baseをファインチューニングしたバージョンで、主に自動音声認識(ASR)タスクに使用されます。

効率的なファインチューニング

wav2vec2-baseモデルを基にファインチューニングを行い、音声認識性能を最適化しました。

安定したトレーニング

30エポックのトレーニングを経て、検証損失は約3.1で安定しています。

音声認識

音声からテキストへの変換

音声処理

音声文字起こし

音声内容をテキストに変換

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

このモデルに関する詳細情報は、今後の更新で追加される予定です。

想定される用途や制限に関する詳細情報は、今後の更新で追加される予定です。

学習と評価に使用したデータに関する詳細情報は、今後の更新で追加される予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.5865	1.38	25	3.4717	1.0
2.9762	2.77	50	3.1483	1.0
2.9265	4.16	75	3.1946	1.0
2.8813	5.55	100	3.0504	1.0
2.887	6.93	125	3.1358	1.0
2.9124	8.33	150	3.1653	1.0
2.8854	9.71	175	3.1243	1.0
2.91	11.11	200	3.0879	1.0
2.8868	12.49	225	3.1658	1.0
2.8827	13.88	250	3.1236	1.0
2.911	15.27	275	3.1206	1.0
2.8829	16.66	300	3.1171	1.0
2.9105	18.05	325	3.1127	1.0
2.8845	19.44	350	3.1377	1.0
2.8803	20.82	375	3.1157	1.0
2.9102	22.22	400	3.1265	1.0
2.8803	23.6	425	3.1493	1.0
2.8837	24.99	450	3.1085	1.0
2.9106	26.38	475	3.1099	1.0
2.8787	27.77	500	3.1352	1.0
2.9132	29.16	525	3.1355	1.0