wav2vec2 - 1オープンソース音声認識モデル - 無料で使用し、高精度な音声認識を実現

Wav2vec2 1

chrisvinsenによって開発

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.4949の単語誤り率を達成しました。

ダウンロード数 16

リリース時間 : 5/22/2022

モデル概要

wav2vec2-1はwav2vec2アーキテクチャに基づく音声認識モデルで、主に音声をテキストに変換するために使用されます。

wav2vec2アーキテクチャ採用

先進的なwav2vec2アーキテクチャを使用して音声認識タスクを実行

ファインチューニング最適化

ベースモデルをファインチューニングし、特定のシナリオでの認識精度を向上

比較的低い単語誤り率

評価セットで0.4949の単語誤り率を達成

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

音声メモ

音声メモを編集可能なテキストに変換

支援技術

聴覚支援

聴覚障害者向けにリアルタイムの音声から文字への変換サービスを提供

このモデルは、音声処理に特化したモデルです。facebook/wav2vec2-base をNoneデータセットでファインチューニングしたもので、評価セットで一定の性能を達成しています。

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細な情報は今後の更新で追加予定です。

詳細な情報は今後の更新で追加予定です。

詳細な情報は今後の更新で追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.2691	1.37	200	2.9045	1.0
1.6356	2.74	400	0.9277	0.8678
0.8062	4.11	600	0.8200	0.7776
0.5983	5.48	800	0.6829	0.7161
0.4863	6.85	1000	0.6205	0.6507
0.407	8.22	1200	0.6519	0.6763
0.3641	9.59	1400	0.5771	0.6088
0.3291	10.96	1600	0.6548	0.6202
0.2905	12.33	1800	0.6538	0.5828
0.2613	13.7	2000	0.6281	0.5864
0.2354	15.07	2200	0.5936	0.5630
0.2145	16.44	2400	0.5877	0.5699
0.2008	17.81	2600	0.5469	0.5488
0.1751	19.18	2800	0.6453	0.5584
0.169	20.55	3000	0.5871	0.5357
0.1521	21.92	3200	0.6063	0.5318
0.1426	23.29	3400	0.5609	0.5171
0.1287	24.66	3600	0.6056	0.5126
0.1236	26.03	3800	0.5994	0.5074
0.1138	27.4	4000	0.5980	0.4944
0.1083	28.77	4200	0.5980	0.4949