xls-r-etオープンソースのエストニア語音声認識モデル - 無料でデプロイし、音声内容を正確に認識

ホーム

Xls R Et

shpotesによって開発

wav2vec2-xls-r-300mアーキテクチャをファインチューニングしたエストニア語自動音声認識モデル、Common Voice 7.0データセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #エストニア語ASR #低文字誤り率 #Common Voiceトレーニング

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルはエストニア語に最適化された自動音声認識(ASR)システムで、エストニア語の音声をテキストに変換できます

モデル特徴

マルチデータセット検証

Common Voice 7.0とロバスト音声コンペティションデータセットで包括的に評価

効率的なトレーニング

混合精度トレーニングとコサイン学習率スケジューリングでトレーニングプロセスを最適化

低文字誤り率

テストセットで7.54%の文字誤り率(CER)を達成

モデル能力

エストニア語音声からテキストへの変換

音声認識

音声文字起こし

使用事例

音声文字起こし

音声メモの文字起こし

エストニア語の音声メモを検索可能なテキストに変換

Common Voiceテストセットで34.75%の単語誤り率を達成

支援技術

音声入力システム

エストニア語ユーザー向けの音声入力サポートを提供

🚀 自動音声認識モデル

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - ETデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4835
単語誤り率 (Wer): 0.3475

🚀 クイックスタート

このモデルは、エストニア語の自動音声認識タスクに使用できます。

✨ 主な機能

エストニア語の自動音声認識に特化したモデルです。
特定のデータセットでファインチューニングされており、高精度な認識を実現します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションを省略します。

📚 ドキュメント

モデルの説明

このモデルは、facebook/wav2vec2-xls-r-300mをMOZILLA-FOUNDATION/COMMON_VOICE_7_0 - ETデータセットでファインチューニングしたものです。

想定される用途と制限

このモデルは、エストニア語の自動音声認識に使用することを想定しています。ただし、具体的な制限事項については追加情報が必要です。

学習と評価データ

学習と評価に使用したデータに関する詳細情報は、追加情報が必要です。

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 72
評価バッチサイズ (eval_batch_size): 72
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 144
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): cosine
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 100.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.3825	12.5	500	0.4022	0.5059
0.1592	25.0	1000	0.4585	0.4456
0.1215	37.5	1500	0.4550	0.4164
0.0972	50.0	2000	0.4725	0.4088
0.0731	62.5	2500	0.4568	0.3824
0.0527	75.0	3000	0.4712	0.3653
0.0428	87.5	3500	0.4813	0.3520
0.0383	100.0	4000	0.4835	0.3475