wav2vec2-base-1オープンソース音声認識モデル - 無料で高精度に音声内容を認識

Wav2vec2 Base 1

jiobiala24によって開発

facebook/wav2vec2-baseをcommon_voiceデータセットでファインチューニングした音声認識モデル

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルは音声認識タスク用のファインチューニング版で、wav2vec2アーキテクチャに基づき、common_voiceデータセットで訓練され、自動音声テキスト変換機能をサポートします。

効率的なファインチューニング

事前訓練済みのwav2vec2-baseモデルを基にファインチューニングを行い、事前訓練モデルの強力な特徴抽出能力を最大限に活用

良好な性能

評価セットで0.3216の単語誤り率(WER)を達成し、多くの同類モデルよりも優れた性能

最適化された訓練

線形学習率スケジューリングと1000ステップのウォームアップを採用し、安定かつ効率的な訓練プロセス

音声テキスト変換

自動音声認識

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

約68%の精度（WER 0.3216に基づく推定）

字幕生成

動画コンテンツに自動的に字幕を生成

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識し実行可能なコマンドに変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.6597	2.2	1000	0.8904	0.5388
0.4751	4.41	2000	0.7009	0.3976
0.3307	6.61	3000	0.7068	0.3672
0.2574	8.81	4000	0.7320	0.3544
0.2096	11.01	5000	0.7803	0.3418
0.177	13.22	6000	0.7768	0.3423
0.1521	15.42	7000	0.8113	0.3375
0.1338	17.62	8000	0.8153	0.3325
0.1168	19.82	9000	0.8851	0.3306
0.104	22.03	10000	0.8811	0.3277
0.0916	24.23	11000	0.8722	0.3254
0.083	26.43	12000	0.9527	0.3265
0.0766	28.63	13000	0.9254	0.3216