wav2vec_cv オープンソース音声認識モデル - 微調整に基づく高精度音声認識の実現

Wav2vec Cv

eugenetanjcによって開発

facebook/wav2vec2-base-960hをファインチューニングした音声認識モデル

ダウンロード数 69

リリース時間 : 6/24/2022

モデル概要

このモデルは、指定されていないデータセットでfacebook/wav2vec2-base-960hをファインチューニングしたバージョンで、主に音声認識タスクに使用されます。

効率的なファインチューニング

事前学習済みのwav2vec2-base-960hモデルを基にファインチューニングを行い、特定のシナリオでの認識性能を向上させました

安定したトレーニング

60エポックのトレーニングを経て、検証損失は約4.17で安定しています

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議の録音を文字記録に変換

音声メモ

音声メモをテキストに変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.1467	4.29	30	4.2173	1.0
6.8918	8.57	60	4.2004	1.0
5.4913	12.86	90	4.2007	1.0
5.3906	17.14	120	4.1765	1.0
4.9212	21.43	150	4.1714	1.0
4.3916	25.71	180	4.1811	1.0
5.2255	30.0	210	4.1633	1.0
4.501	34.29	240	4.2050	1.0
4.4328	38.57	270	4.1572	1.0
4.2136	42.86	300	4.1698	1.0
4.3353	47.14	330	4.1721	1.0
4.1805	51.43	360	4.1804	1.0
4.1695	55.71	390	4.1801	1.0
4.2978	60.0	420	4.1760	1.0