wav2vec2-base-checkpoint-10オープンソース音声認識モデル - データセットに基づく微調整、低誤り率

Wav2vec2 Base Checkpoint 10

jiobiala24によって開発

wav2vec2-base-checkpoint-9をベースにcommon_voiceデータセットで微調整した音声認識モデルで、評価セットでの単語誤り率は0.3292

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

これは音声認識モデルで、wav2vec2アーキテクチャをベースにcommon_voiceデータセットで微調整されており、音声をテキストに変換できます。

低単語誤り率

評価セットで0.3292の単語誤り率を達成し、良好な性能を示しています

wav2vec2アーキテクチャベース

wav2vec2-baseアーキテクチャを採用しており、優れた音声特徴抽出能力を持っています

微調整最適化

common_voiceデータセットで30ラウンドの微調整トレーニングを実施しました

音声からテキストへの変換

自動音声認識

音声文字起こし

音声転写

音声内容を文字記録に変換します

単語誤り率0.3292

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識します

このモデルは、common_voiceデータセット上でjiobiala24/wav2vec2-base-checkpoint-9をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、common_voiceデータセット上でjiobiala24/wav2vec2-base-checkpoint-9をファインチューニングしたものです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2892	1.62	1000	0.5745	0.3467
0.235	3.23	2000	0.6156	0.3423
0.1782	4.85	3000	0.6299	0.3484
0.1504	6.46	4000	0.6475	0.3446
0.133	8.08	5000	0.6753	0.3381
0.115	9.69	6000	0.7834	0.3529
0.101	11.31	7000	0.7924	0.3426
0.0926	12.92	8000	0.7887	0.3465
0.0863	14.54	9000	0.7674	0.3439
0.0788	16.16	10000	0.8648	0.3435
0.0728	17.77	11000	0.8460	0.3395
0.0693	19.39	12000	0.8941	0.3451
0.0637	21.0	13000	0.9079	0.3356
0.0584	22.62	14000	0.8851	0.3336
0.055	24.23	15000	0.9400	0.3338
0.0536	25.85	16000	0.9387	0.3335
0.0481	27.46	17000	0.9664	0.3337
0.0485	29.08	18000	0.9567	0.3292