wav2vec2 - 4オープンソース音声認識モデル - 無料でのデプロイで自動音声認識タスクをサポート

Wav2vec2 4

chrisvinsenによって開発

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、主に自動音声認識タスクに使用されます。

ダウンロード数 16

リリース時間 : 5/22/2022

モデル概要

wav2vec2-4はwav2vec2アーキテクチャに基づく音声認識モデルで、ファインチューニング後に音声をテキストに変換するために使用できます。

wav2vec2アーキテクチャベース

先進的なwav2vec2アーキテクチャを採用し、音声特徴抽出と認識を行います

ファインチューニング最適化

ベースモデルに対して特定のシナリオでの認識性能向上を目的としたファインチューニングを実施

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

音声メモ

音声メモを編集可能なテキストに変換

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。具体的な使用方法は、モデルの詳細なドキュメントを参照してください。

このモデルは、facebook/wav2vec2-base をベースに、Noneデータセットでファインチューニングされています。

詳細な情報は提供されていません。

詳細な情報は提供されていません。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
5.1303	1.37	200	3.2783	1.0
2.8798	2.74	400	3.1233	1.0
2.8586	4.11	600	3.1612	1.0
2.8613	5.48	800	3.1354	1.0
2.8588	6.85	1000	3.2634	1.0
2.8572	8.22	1200	3.0905	1.0
2.8573	9.59	1400	3.2315	1.0
2.8532	10.96	1600	3.0999	1.0
2.8567	12.33	1800	3.1496	1.0
2.8556	13.7	2000	3.1081	1.0
2.8551	15.07	2200	3.1139	1.0
2.8545	16.44	2400	3.1621	1.0
2.8547	17.81	2600	3.1124	1.0
2.8551	19.18	2800	3.1612	1.0
2.854	20.55	3000	3.1052	1.0
2.8542	21.92	3200	3.1558	1.0
2.8544	23.29	3400	3.1370	1.0
2.8546	24.66	3600	3.1616	1.0
2.8563	26.03	3800	3.1366	1.0
2.8514	27.4	4000	3.1434	1.0
2.8543	28.77	4200	3.1442	1.0