wav2vec2-base_toy_train_data_random_noiseオープンソース音声認識モデル

Wav2vec2 Base Toy Train Data Random Noise

scasuttによって開発

このモデルはfacebook/wav2vec2-baseを玩具訓練データで微調整した音声認識モデルで、主にランダムノイズ環境下での音声認識タスクを処理するために使用されます。

ダウンロード数 22

リリース時間 : 3/27/2022

モデル概要

これは微調整されたwav2vec2-baseモデルで、ランダムノイズ環境下での音声認識に特化しています。モデルは評価セットで0.7351の単語誤り率を達成しました。

ノイズ環境適応

ランダムノイズ環境向けに最適化され、騒がしい条件下での音声認識精度を向上させました

wav2vec2アーキテクチャベース

強力なwav2vec2-baseモデルを基盤として構築され、優れた音声特徴抽出能力を継承しています

音声認識

ノイズ環境下での音声処理

音声文字起こし

騒がしい環境下での音声文字起こし

ランダムノイズを含む音声をテキストに変換

単語誤り率0.7351

このモデルは、音声処理分野において、facebook/wav2vec2-base をベースに特定のデータセットで微調整されたものです。評価セットでは、損失率や誤り率などの指標で一定の性能を示しています。

このモデルは、facebook/wav2vec2-base を None データセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。

詳細な情報は今後の更新で追加予定です。

詳細な情報は今後の更新で追加予定です。

詳細な情報は今後の更新で追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
3.128	2.1	250	3.5052	1.0
3.0423	4.2	500	2.9312	1.0
1.4109	6.3	750	1.2618	0.8915
0.9132	8.4	1000	1.1074	0.8436
0.7146	10.5	1250	1.0397	0.7876
0.5418	12.6	1500	1.0359	0.7662
0.4649	14.7	1750	1.0469	0.7467
0.4127	16.8	2000	1.0655	0.7404
0.3881	18.9	2250	1.0909	0.7351