wav2vec_trainedオープンソース音声認識モデル - 無料で使用し、高精度な音声文字変換を実現

Wav2vec Trained

eugenetanjcによって開発

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで単語誤り率0.1042を達成しました。

ダウンロード数 70

リリース時間 : 6/25/2022

モデル概要

wav2vec2アーキテクチャに基づく音声認識モデルで、音声をテキストに変換します。

低単語誤り率

評価セットで0.1042の単語誤り率を達成

効率的なトレーニング

混合精度トレーニング（ネイティブAMP）を使用してトレーニング効率を最適化

線形学習率スケジューリング

1000ステップのウォームアップを伴う線形学習率スケジューラーを採用し、トレーニングプロセスを最適化

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議録の自動生成

会議録音を自動的に文字記録に変換

音声メモ変換

音声メモを編集可能なテキストに変換

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットで以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、後述のセクションを参照してください。

このモデルに関する詳細な情報は、今後の更新で提供される予定です。

このモデルの想定される用途と制限に関する詳細な情報は、今後の更新で提供される予定です。

トレーニングと評価に使用されたデータに関する詳細な情報は、今後の更新で提供される予定です。

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.3849	2.21	500	2.9148	1.0
1.9118	4.42	1000	0.9627	0.5833
0.7596	6.64	1500	0.8953	0.3542
0.4602	8.85	2000	0.3325	0.2083
0.331	11.06	2500	0.3084	0.2083
0.2474	13.27	3000	0.0960	0.1667
0.1934	15.49	3500	0.1276	0.125
0.156	17.7	4000	0.0605	0.0833
0.1244	19.91	4500	0.0831	0.1458
0.1006	22.12	5000	0.0560	0.125
0.0827	24.34	5500	0.0395	0.0833
0.0723	26.55	6000	0.0573	0.0833
0.0606	28.76	6500	0.0337	0.1042