wav2vec2-base-timit-demo-colab7オープンソース音声認識モデル - 無料でデプロイして英語の音声をテキストに変換する

Wav2vec2 Base Timit Demo Colab7

hassnainによって開発

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。

ダウンロード数 16

リリース時間 : 5/1/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク向けに最適化されており、英語音声をテキストに変換できます。

高効率音声認識

wav2vec2アーキテクチャに基づき、効率的な英語音声認識能力を提供

ファインチューニング最適化

TIMITデータセットでファインチューニングを行い、特定シナリオでの認識精度を向上

軽量

wav2vec2-baseアーキテクチャに基づき、比較的軽量でデプロイが容易

英語音声認識

音声からテキストへの変換

音声文字起こし

英語会議議事録

英語会議の録音を自動的に文字記録に変換

単語誤り率(WER)0.6478

音声コマンド認識

英語音声コマンドを認識し実行可能なコマンドに変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.8409	7.04	500	3.1487	1.0
2.6259	14.08	1000	1.5598	0.8730
1.083	21.13	1500	1.0600	0.7347
0.6061	28.17	2000	1.0697	0.7006
0.4022	35.21	2500	1.0617	0.6913
0.2884	42.25	3000	1.1962	0.6768
0.225	49.3	3500	1.1753	0.6567
0.1852	56.34	4000	1.1687	0.6478