wav2vec2 - 2 - bert-largeオープンソースモデル - 英語の音声を無料で高精度にテキストに変換

Wav2vec2 2 Bert Large

Developed by speech-seq2seq

LibriSpeechデータセットでトレーニングされた自動音声認識(ASR)モデルで、英語音声をテキストに変換します

Downloads 17

Release Time : 3/2/2022

Model Overview

このモデルは英語音声に特化した自動音声認識システムで、音声信号を対応するテキスト内容に変換できます。

高精度

LibriSpeech評価セットで1.9878の単語誤り率を達成

最適化トレーニング

Adamオプティマイザーと線形学習率スケジューラーを使用してトレーニング

英語音声認識

連続音声テキスト変換

音声文字起こし

音声文字変換

英語音声内容を自動的にテキスト形式に変換

単語誤り率1.9878

支援ツール

リアルタイム字幕生成

英語動画や会議にリアルタイム字幕を提供

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.7599	0.28	500	6.8755	1.2551
6.5943	0.56	1000	6.7702	1.5878
6.3146	0.84	1500	6.6981	1.6627
6.6112	1.12	2000	6.6760	1.9853
6.6894	1.4	2500	6.6323	1.9376
6.5525	1.68	3000	6.6185	1.9383
6.571	1.96	3500	6.6126	1.9580
6.3363	2.24	4000	6.7869	1.9818
6.5832	2.52	4500	6.9096	2.0025
6.3523	2.8	5000	6.9670	1.9878