🚀 wav2vec2-xls-r-300m-cv6-turkish
この自動音声認識(ASR)モデルは、トルコ語に対して微調整されたfacebook/wav2vec2-xls-r-300mのバージョンです。トルコ語の音声認識タスクに特化しています。
🚀 クイックスタート
このモデルを使用するには、まず必要なライブラリをインストールし、評価コマンドを実行することで評価を行うことができます。
✨ 主な機能
- トルコ語に特化した自動音声認識モデルです。
- 複数のデータセットを用いて微調整されており、精度が高いです。
📦 インストール
評価を行う前に、unicode_trパッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。
💻 使用例
基本的な使用法
common_voice
のtest
スプリットで評価を行うには、以下のコマンドを実行します。
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset common_voice --config tr --split test
高度な使用法
speech-recognition-community-v2/dev_data
で評価を行うには、以下のコマンドを実行します。
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📚 ドキュメント
モデルの説明
このASRモデルは、facebook/wav2vec2-xls-r-300mをトルコ語で微調整したバージョンです。
学習と評価データ
微調整には以下のデータセットが使用されました。
学習手順
上記の両方のデータセットをサポートするために、カスタムの前処理とロード手順が実行され、wav2vec2-turkishリポジトリがその目的で使用されました。
学習ハイパーパラメータ
微調整には以下のハイパーパラメータが使用されました。
- learning_rate 2e-4
- num_train_epochs 10
- warmup_steps 500
- freeze_feature_extractor
- mask_time_prob 0.1
- mask_feature_prob 0.1
- feat_proj_dropout 0.05
- attention_dropout 0.05
- final_dropout 0.1
- activation_dropout 0.05
- per_device_train_batch_size 8
- per_device_eval_batch_size 8
- gradient_accumulation_steps 8
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.1
- Datasets 1.18.3
- Tokenizers 0.10.3
言語モデル
N-gram言語モデルは、KenLMを使用してトルコ語のウィキペディア記事で学習され、ngram-lm-wikiリポジトリがarpa LMを生成してバイナリ形式に変換するために使用されました。
評価コマンド
評価を実行する前に、unicode_trパッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。
common_voice
のtest
スプリットで評価を行うには、以下のコマンドを実行します。
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset common_voice --config tr --split test
speech-recognition-community-v2/dev_data
で評価を行うには、以下のコマンドを実行します。
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv6-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
評価結果
データセット |
WER |
CER |
Common Voice 6.1 TR test split |
8.83 |
2.37 |
Speech Recognition Community dev data |
32.81 |
11.22 |
🔧 技術詳細
このモデルは、トルコ語の自動音声認識タスクに特化しており、複数のデータセットを用いて微調整されています。学習には、カスタムの前処理とロード手順が実行され、特定のハイパーパラメータが使用されました。また、N-gram言語モデルがトルコ語のウィキペディア記事で学習されています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。