wav2vec2-11オープンソース音声認識モデル - 無料でデプロイして自動音声をテキストに変換する

Wav2vec2 11

chrisvinsenによって開発

facebook/wav2vec2-baseを微調整した音声認識モデルで、自動音声テキスト変換タスクをサポート

ダウンロード数 18

リリース時間 : 5/23/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、微調整後に音声をテキストに変換するタスクに使用可能

wav2vec2アーキテクチャ採用

Facebookが開発したwav2vec2-baseを基本アーキテクチャとして採用し、優れた音声特徴抽出能力を有する

微調整最適化

特定のデータセットで微調整を行い、特定の音声特徴や分野に最適化されている可能性がある

低単語誤り率

評価結果では単語誤り率(WER)が1.0と良好な性能を示す

音声認識

自動音声テキスト変換

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

単語誤り率1.0

音声メモ

音声メモを編集可能なテキストに変換

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに利用できます。具体的な使用方法は、モデルのライブラリに依存します。

学習時には以下のハイパーパラメータが使用されました。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
4.2589	1.18	200	3.1595	1.0
2.8683	2.35	400	3.1270	1.0
2.8692	3.53	600	3.1041	1.0
2.8577	4.71	800	3.0804	1.0
2.8587	5.88	1000	3.0556	1.0
2.8615	7.06	1200	3.1084	1.0
2.8598	8.24	1400	3.0608	1.0
2.8571	9.41	1600	3.0997	1.0
2.8595	10.59	1800	3.1533	1.0
2.8568	11.76	2000	3.0621	1.0
2.8563	12.94	2200	3.1072	1.0
2.8556	14.12	2400	3.1299	1.0
2.8581	15.29	2600	3.0565	1.0
2.8534	16.47	2800	3.0821	1.0
2.857	17.65	3000	3.0734	1.0
2.8545	18.82	3200	3.1392	1.0
2.8568	20.0	3400	3.0541	1.0
2.8519	21.18	3600	3.0856	1.0
2.8542	22.35	3800	3.1477	1.0
2.8565	23.53	4000	3.0433	1.0
2.8525	24.71	4200	3.0826	1.0
2.8538	25.88	4400	3.0972	1.0
2.857	27.06	4600	3.0762	1.0
2.8523	28.24	4800	3.0828	1.0
2.8526	29.41	5000	3.0827	1.0