wav2vec_mleオープンソース音声認識モデル - 事前学習ベースの微調整により、単語誤り率を1.0まで低減

Wav2vec Mle

eugenetanjcによって開発

facebook/wav2vec2-base-960hをベースにファインチューニングした音声認識モデルで、評価セットでの単語誤り率は1.0

ダウンロード数 68

リリース時間 : 6/24/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、ファインチューニング後に音声からテキストへの変換タスクに使用可能

wav2vec2アーキテクチャ採用

Facebookが開発したwav2vec2-base-960hをベースモデルとして使用

ファインチューニング最適化

特定のデータセットでファインチューニングを行い、音声認識性能を最適化

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

音声メモ

音声メモを検索可能なテキストに変換

このモデルは、facebook/wav2vec2-base-960h をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

このモデルに関する詳細情報は、今後追加予定です。

このモデルの想定用途と制限に関する詳細情報は、今後追加予定です。

学習と評価に使用したデータに関する詳細情報は、今後追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.3604	3.33	30	4.4612	1.0
4.502	6.67	60	4.5906	1.0
4.2842	10.0	90	4.4217	1.0
4.3833	13.33	120	4.3967	1.0
4.2631	16.67	150	4.3469	1.0
4.3357	20.0	180	4.3372	1.0
4.3941	23.33	210	4.3187	1.0
4.393	26.67	240	4.2981	1.0
4.3619	30.0	270	4.3049	1.0
4.3849	33.33	300	4.3138	1.0
4.3186	36.67	330	4.3123	1.0
4.3196	40.0	360	4.3097	1.0
4.3212	43.33	390	4.3279	1.0
4.3108	46.67	420	4.3249	1.0
4.3112	50.0	450	4.3093	1.0
4.2994	53.33	480	4.3198	1.0
4.2958	56.67	510	4.3071	1.0
4.2905	60.0	540	4.3076	1.0