wav2vec2-2-rndオープンソース自動音声認識モデル - 無料で英語の音声をテキストに変換するためのデプロイ可能

Wav2vec2 2 Rnd

sanchit-gandhiによって開発

LibriSpeech ASR データセットでトレーニングされた自動音声認識モデルで、英語音声をテキストに変換します。

ダウンロード数 16

リリース時間 : 3/6/2022

モデル概要

このモデルは自動音声認識（ASR）システムで、英語音声に特化して設計されており、音声信号を対応するテキストに変換できます。

高精度

LibriSpeech 評価セットで0.1442の単語誤り率を達成しました。

最適化されたトレーニングプロセス

Adamオプティマイザーと線形学習率スケジューラーを使用してトレーニングを行い、モデルの安定した収束を確保しました。

混合精度トレーニング

ネイティブAMPを使用した混合精度トレーニングにより、トレーニング効率を向上させました。

英語音声認識

音声テキスト変換

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換します。

高精度な文字起こし結果により、手動校正時間を削減します。

字幕生成

ビデオコンテンツに自動的に英語字幕を生成します。

迅速な字幕生成により、ビデオ制作効率を向上させます。

音声アシスタント

音声コマンド認識

音声アシスタントがユーザーの音声コマンドを認識するために使用されます。

高精度なコマンド認識により、ユーザーエクスペリエンスを向上させます。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
6.1431	1.68	1500	6.0870	1.4277
5.498	3.36	3000	5.5505	1.6318
3.575	5.04	4500	3.7856	0.6683
1.7532	6.73	6000	2.4603	0.3576
1.6379	8.41	7500	1.8847	0.2932
1.3145	10.09	9000	1.5027	0.2222
0.8389	11.77	10500	1.2637	0.1855
0.9239	13.45	12000	1.1424	0.1683
0.6666	15.13	13500	1.0562	0.1593
0.5258	16.82	15000	0.9911	0.1489
0.4733	18.5	16500	0.9599	0.1442