wav2vec2-base-timit-demo-colab90オープンソース音声認識モデル - 無料でデプロイして英語の音声をテキストに変換

Wav2vec2 Base Timit Demo Colab90

hassnainによって開発

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化

ダウンロード数 16

リリース時間 : 5/1/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、音声認識タスク向けに最適化されており、英語音声をテキストに変換可能

効率的なファインチューニング

事前学習済みwav2vec2-baseモデルを基にファインチューニングし、限られたデータでも良好な性能向上を実現

低い単語誤り率

評価セットで0.4479の単語誤り率(WER)を達成し、ベースモデルより優れた性能

軽量なデプロイ

baseバージョンは比較的小さく、リソースが限られた環境での展開に適している

英語音声認識

音声からテキストへ

音声コンテンツの文字起こし

音声文字起こし

会議議録の自動化

英語の会議録音を自動的に文字記録に変換

単語誤り率約44.79%

音声メモ変換

個人の音声メモを検索可能なテキストに変換

支援ツール

聴覚障害者支援

聴覚障害者向けにリアルタイム音声文字変換サービスを提供

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.0217	7.04	500	3.2571	1.0
1.271	14.08	1000	0.6501	0.5874
0.4143	21.13	1500	0.5943	0.5360
0.2446	28.17	2000	0.6285	0.5028
0.1653	35.21	2500	0.6553	0.4992
0.1295	42.25	3000	0.6735	0.4705
0.1033	49.3	3500	0.6792	0.4539
0.0886	56.34	4000	0.6766	0.4479