wav2vec2-xls-r-1b-ポルトガル語-CORAA-3オープンソースモデル - ポルトガル語の自動音声認識を効率的に実現

ホーム

Wav2vec2 Xls R 1b Portuguese CORAA 3

lgrisによって開発

facebook/wav2vec2-xls-r-1bをCORAAデータセットでファインチューニングしたポルトガル語自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語音声認識 #大規模モデルのファインチューニング #低リソース最適化

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

このモデルはポルトガル語に最適化された自動音声認識(ASR)モデルで、CORAAデータセットでファインチューニングされており、ポルトガル語音声をテキストに変換できます。

モデル特徴

大規模事前学習モデルのファインチューニング

10億パラメータのwav2vec2-xls-r-1bモデルを基にファインチューニングされており、強力な音声認識能力を有しています

ポルトガル語最適化

特にポルトガル語向けに最適化されており、CORAAデータセットで良好な性能を発揮しています

複数データセットでの検証

Common Voiceやロバスト音声イベントなど複数のデータセットで検証済みです

モデル能力

ポルトガル語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

ポルトガル語音声文字起こし

ポルトガル語音声コンテンツをテキストに変換

CORAA評価セットでWER 0.6020を達成

音声アシスタント

ポルトガル語音声コマンド認識

ポルトガル語音声アシスタントシステムでのコマンド認識に使用

🚀 wav2vec2-xls-r-1b-portuguese-CORAA-3

このモデルは、CORAAデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.0029
単語誤り率 (Wer): 0.6020

📚 ドキュメント

モデルの概要

詳細情報は後日追加予定です。

想定用途と制限事項

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 4
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 5000
学習ステップ数 (training_steps): 30000
混合精度学習 (mixed_precision_training): ネイティブAMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.0169	0.21	5000	1.9582	0.9283
1.8561	0.42	10000	1.6144	0.8554
1.6823	0.63	15000	1.4165	0.7710
1.52	0.84	20000	1.2441	0.7289
1.3757	1.05	25000	1.1061	0.6491
1.2377	1.26	30000	1.0029	0.6020

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

🔍 モデル情報

属性	详情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
タグ	automatic-speech-recognition, generated_from_trainer, pt, robust-speech-event, hf-asr-leaderboard