wav2vec2 - tcrsオープンソース音声認識モデル、ファインチューニング後の単語誤り率が低く、音声内容を正確に認識できる

ホーム

Wav2vec2 Tcrs

neelan-elucidate-aiによって開発

facebook/wav2vec2-large-lv60を微調整した音声認識モデルで、評価セットで1.0657の単語誤り率を達成

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声認識 #低単語誤り率 #微調整モデル

ダウンロード数 20

リリース時間 : 5/4/2022

モデル概要

このモデルは音声認識タスク用の微調整モデルで、wav2vec2アーキテクチャに基づいており、音声をテキストに変換するアプリケーションに適しています。

モデル特徴

低単語誤り率

評価セットで1.0657の単語誤り率を達成し、優れた性能を発揮

wav2vec2アーキテクチャ採用

facebook/wav2vec2-large-lv60をベースモデルとして使用し、強力な音声特徴抽出能力を有する

精密調整

100エポックにわたる精密調整トレーニングにより、モデル性能が大幅に向上

モデル能力

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

会議議録自動生成

会議録音を自動的に文字記録に変換

高精度な文字起こし結果

音声アシスタント

音声アシスタントの音声認識モジュールとして使用

迅速かつ正確な音声理解

アクセシビリティアプリケーション

リアルタイム字幕生成

聴覚障害者向けにリアルタイム字幕サービスを提供

低遅延で高精度な字幕出力

🚀 wav2vec2-tcrs

このモデルは、facebook/wav2vec2-large-lv60 をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 2.9550
単語誤り率 (Wer): 1.0657

🚀 クイックスタート

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

📚 ドキュメント

モデルの説明

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0001
学習バッチサイズ (train_batch_size): 1
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1000
エポック数 (num_epochs): 100
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
13.6613	3.38	500	3.2415	1.0
2.9524	6.76	1000	3.0199	1.0
2.9425	10.14	1500	3.0673	1.0
2.9387	13.51	2000	3.0151	1.0
2.9384	16.89	2500	3.0320	1.0
2.929	20.27	3000	2.9691	1.0
2.9194	23.65	3500	2.9596	1.0
2.9079	27.03	4000	2.9279	1.0
2.8957	30.41	4500	2.9647	1.0
2.8385	33.78	5000	2.8114	1.0193
2.6546	37.16	5500	2.6744	1.0983
2.5866	40.54	6000	2.6192	1.1071
2.5475	43.92	6500	2.5777	1.0950
2.5177	47.3	7000	2.5845	1.1220
2.482	50.68	7500	2.5730	1.1264
2.4343	54.05	8000	2.5722	1.0955
2.3754	57.43	8500	2.5781	1.1353
2.3055	60.81	9000	2.6177	1.0972
2.2446	64.19	9500	2.6351	1.1027
2.1625	67.57	10000	2.6924	1.0756
2.1078	70.95	10500	2.6817	1.0795
2.0366	74.32	11000	2.7629	1.0657
1.9899	77.7	11500	2.7972	1.0845
1.9309	81.08	12000	2.8450	1.0734
1.8861	84.46	12500	2.8703	1.0668
1.8437	87.84	13000	2.9308	1.0917
1.8192	91.22	13500	2.9298	1.0701
1.7952	94.59	14000	2.9488	1.0685
1.7745	97.97	14500	2.9550	1.0657