wav2vec2-xls-r-300m-gl-CV8オープンソース音声認識モデル - ガリシア語の音声の正確な認識を支援

Wav2vec2 Xls R 300m Gl CV8

emreによって開発

このモデルは、Facebookのwav2vec2 - xls - r - 300mをCommon Voiceガリシア語(gl)データセットでファインチューニングした音声認識モデルで、テストセットで20.8%の単語誤り率(WER)を達成しました。

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

これはガリシア語(gl)の自動音声認識(ASR)に使用するモデルで、wav2vec2 - xls - r - 300mアーキテクチャをファインチューニングして作成され、ガリシア語の音声をテキストに変換するタスクに適しています。

複数データセット評価

モデルはCommon Voice gl、Common Voice 8.0、Robust Speech Eventなどの複数のデータセットで評価され、異なるデータ分布での性能を示しました。

比較的低いWER

Common Voice glテストセットで20.8%の単語誤り率(WER)を達成し、標準音声データに対する良好な認識能力を示しています。

大規模事前学習モデルのファインチューニング

Facebookのwav2vec2 - xls - r - 300m大規模事前学習モデルを基にファインチューニングされ、事前学習モデルの強力な特徴抽出能力を活用しています。

ガリシア語音声認識

音声からテキストへの変換

自動音声認識

音声文字起こし

ガリシア語音声文字起こし

ガリシア語の音声内容をテキスト形式に変換する

標準テストセットで20.8%の単語誤り率に達しました

音声アシスタント

ガリシア語音声指令認識

ガリシア語の音声アシスタントまたは音声制御システムの音声認識モジュールに使用されます

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットで以下の成果を達成し、音声認識の精度と効率を効果的に向上させ、関連する音声アプリケーションに強力なサポートを提供します。

このモデルは facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたもので、評価セットで以下の結果を得ています。

このプロジェクトは Apache - 2.0 ライセンスを採用しています。

訓練中に以下のハイパーパラメータが使用されました。

訓練損失	エポック数	ステップ数	検証損失	文字誤り率（Wer）
4.9427	4.9	500	2.8801	1.0
2.1594	9.8	1000	0.4092	0.4001
0.7332	14.71	1500	0.2151	0.2080

モデル名	タスク	データセット	指標	値
wav2vec2-xls-r-300m-gl-CV8	音声認識自動音声認識自動音声認識自動音声認識	Common Voice gl Common Voice 8.0 Robust Speech Event - Dev Data Robust Speech Event - Test Data	テスト文字誤り率（Test WER）テスト文字誤り率（Test WER）テスト文字誤り率（Test WER）テスト文字誤り率（Test WER）	0.208 22.94 47.82 50.8