wav2vec2-300m-teste4オープンソース音声認識モデル - 無料でデプロイし、精度良く音声内容を認識

Wav2vec2 300m Teste4

tonyalvesによって開発

facebook/wav2vec2-xls-r-300mをベースに、common_voiceデータセットで微調整した音声認識モデル

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識(ASR)に使用するモデルで、wav2vec2-xls-r-300mアーキテクチャをベースに、common_voiceデータセットで微調整されています。

効率的な音声認識

common_voiceデータセットで微調整され、良好な音声認識能力を持っています。

wav2vec2アーキテクチャをベースに

facebookのwav2vec2-xls-r-300m事前学習モデルをベースに採用しています。

最適化された学習

4ラウンドの学習を経て、混合精度学習などの技術で最適化されています。

音声をテキストに変換

自動音声認識

音声文字起こし

音声を文字に変換

音声内容を文字記録に変換します。

単語誤り率0.3489

音声アシスタント

音声命令認識

ユーザーの音声命令を認識します。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.0237	0.49	100	4.2075	0.9792
3.313	0.98	200	3.0232	0.9792
2.9469	1.47	300	2.7591	0.9792
1.4217	1.96	400	0.8397	0.6219
0.5598	2.45	500	0.6085	0.5087
0.4507	2.94	600	0.4512	0.4317
0.2775	3.43	700	0.3839	0.3751
0.2047	3.92	800	0.3276	0.3489