xlsr_kurmanji_kurdishオープンソース自動音声認識モデル - クルマンジ・クルディッシュ語の音声を正確に認識する

ホーム

Xlsr Kurmanji Kurdish

Akashpb13によって開発

このモデルは、facebook/wav2vec2 - xls - r - 300mをベースに、クルマンジ・クルド語データセットで微調整された自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #クルマンジ方言ASR #低CER音声認識 #多方言ロバスト性

ダウンロード数 60

リリース時間 : 3/2/2022

モデル概要

これはクルマンジ・クルド語に最適化された自動音声認識モデルで、wav2vec2 - xls - r - 300mアーキテクチャをベースに微調整され、Common Voiceデータセットで良好な性能を発揮します。

モデル特徴

クルマンジ方言サポート

クルマンジ・クルド語方言に特化して最適化された音声認識能力

効率的なトレーニング

混合精度トレーニングと余弦アニーリング学習率スケジューラを用いてトレーニングプロセスを最適化

複数データセットの統合

Common Voiceの複数のサブセットのデータを統合してトレーニングし、モデルのロバスト性を向上させます。

モデル能力

クルマンジ・クルド語音声認識

自動音声からテキストへの変換

多方言サポート

使用事例

音声書き起こし

クルド語音声の文字起こし

クルマンジ方言の音声内容をテキストに変換する

Common VoiceテストセットでのWERは0.3307です。

音声アシスタント

クルド語音声インタラクション

クルド語ユーザーに音声制御インターフェースを提供する

🚀 Akashpb13/xlsr_kurmanji_kurdish

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - huデータセット上で[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)をファインチューニングしたバージョンです。評価セット（トレーニングデータセットの10％と、無効化データ、報告データ、その他のデータ、開発データセットをマージしたもの）で以下の結果を達成しています。

損失: 0.292389
単語誤り率（Wer）: 0.388585

✨ 主な機能

このモデルは、自動音声認識（Automatic Speech Recognition）タスクに特化しています。
クルマンジ・クルド語（Kurdish - Kurmanji）の音声認識に適しています。

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

このドキュメントには具体的なコード例が記載されていないため、このセクションを省略します。

📚 詳細ドキュメント

モデルの説明

"facebook/wav2vec2 - xls - r - 300m" をファインチューニングしています。

想定される用途と制限

詳細な情報は必要です。

トレーニングと評価データ

トレーニングデータは、Common voice Kurmanji Kurdishのtrain.tsv、dev.tsv、invalidated.tsv、reported.tsv、およびother.tsvです。Common voice 7.0に含まれるすべてのデータセットを連結した後、アップボートがダウンボートより多いポイントのみを考慮し、重複を削除しています。

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90 - 10の分割を使用しました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率（learning_rate）: 0.000096
トレーニングバッチサイズ（train_batch_size）: 16
評価バッチサイズ（eval_batch_size）: 16
シード（seed）: 13
勾配累積ステップ数（gradient_accumulation_steps）: 16
学習率スケジューラのタイプ（lr_scheduler_type）: cosine_with_restarts
学習率スケジューラのウォームアップステップ数（lr_scheduler_warmup_steps）: 200
エポック数（num_epochs）: 100
混合精度トレーニング（mixed_precision_training）: Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率（Wer）
200	4.382500	3.183725	1.000000
400	2.870200	0.996664	0.781117
600	0.609900	0.333755	0.445052
800	0.326800	0.305729	0.403157
1000	0.255000	0.290734	0.391621
1200	0.226300	0.292389	0.388585

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.1
Tokenizers 0.10.3

評価コマンド

mozilla - foundation/common_voice_8_0 の test スプリットで評価するには

python eval.py --model_id Akashpb13/xlsr_kurmanji_kurdish --dataset mozilla - foundation/common_voice_8_0 --config kmr --split test

🔧 技術詳細

このドキュメントには具体的な技術詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

モデル情報

属性	詳情
モデルタイプ	Automatic Speech Recognition
トレーニングデータ	Common voice Kurmanji Kurdish train.tsv, dev.tsv, invalidated.tsv, reported.tsv, and other.tsv

データセット

mozilla - foundation/common_voice_8_0

モデルインデックス

名前: Akashpb13/xlsr_kurmanji_kurdish 結果:
- タスク: 名前: Automatic Speech Recognition タイプ: automatic - speech - recognition データセット: 名前: Common Voice 8 タイプ: mozilla - foundation/common_voice_8_0 引数: kmr メトリクス:
  - 名前: Test WER タイプ: wer 値: 0.33073206986250464
  - 名前: Test CER タイプ: cer 値: 0.08035244447163924
- タスク: 名前: Automatic Speech Recognition タイプ: automatic - speech - recognition データセット: 名前: Robust Speech Event - Dev Data タイプ: speech - recognition - community - v2/dev_data 引数: kmr メトリクス:
  - 名前: Test WER タイプ: wer 値: 0.33073206986250464
  - 名前: Test CER タイプ: cer 値: 0.08035244447163924