wav2vec2-large-xls-r-300m-basqueオープンソースモデル - バスク語の自動音声認識を無料で実現

ホーム

Wav2vec2 Large Xls R 300m Basque

deepdmlによって開発

facebook/wav2vec2-xls-r-300mをベースに、バスク語のCommon Voiceデータセットで微調整した自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #バスク語音声認識 #低文字誤り率(CER10.01)#多シーン音声文字起こし

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

これはバスク語に最適化された自動音声認識(ASR)モデルで、wav2vec2-xls-r-300mアーキテクチャを微調整して作成され、バスク語の音声をテキストに変換するタスクに適しています。

モデル特徴

バスク語最適化

バスク語に特化して微調整され、この言語に対する認識精度が向上しました

wav2vec2-xls-rアーキテクチャに基づく

強力なwav2vec2-xls-r-300m事前学習モデルをベースに採用し、優れた音声特徴抽出能力を持っています

Common Voiceデータセットで訓練

Mozilla Common Voice 7.0のバスク語データセットを使用して訓練し、データの多様性を確保しました

モデル能力

バスク語音声認識

音声をテキストに変換

自動音声文字起こし

使用事例

音声文字起こし

バスク語音声をテキストに変換

バスク語の音声内容をテキスト形式に変換します

単語誤り率51.89%、文字誤り率10.01%

音声アシスタント

バスク語音声インタラクション

バスク語の音声アシスタントに音声認識能力を提供します

🚀 wav2vec2-large-xls-r-300m-basque

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは、以下の結果を達成しています。

損失: 0.4276
単語誤り率 (Wer): 0.5962

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 2
評価バッチサイズ (eval_batch_size): 2
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 4
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 5
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.9902	1.29	400	2.1257	1.0
0.9625	2.59	800	0.5695	0.7452
0.4605	3.88	1200	0.4276	0.5962

フレームワークバージョン

Transformers 4.16.2
Pytorch 1.10.0+cu111
Datasets 1.18.3
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

🔍 その他の情報

メトリクス:
- 単語誤り率 (wer)
- 文字誤り率 (cer)
タグ:
- 自動音声認識 (automatic-speech-recognition)
- バスク語 (basque)
- トレーナーから生成 (generated_from_trainer)
- HF音声認識ランキング (hf-asr-leaderboard)
- 堅牢音声イベント (robust-speech-event)
データセット:
- mozilla-foundation/common_voice_7_0