xlsr_hungarian_newオープンソース音声認識モデル - 無料デプロイでハンガリー語音声認識をサポート

ホーム

Xlsr Hungarian New

Akashpb13によって開発

このモデルはfacebook/wav2vec2-xls-r-300mをハンガリー語データセットでファインチューニングした自動音声認識モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ハンガリー語音声認識 #低単語誤り率 #多シーン適応

ダウンロード数 27

リリース時間 : 3/2/2022

モデル概要

ハンガリー語に最適化された自動音声認識モデル、Common Voice 8.0データセットでトレーニング

モデル特徴

ハンガリー語最適化

ハンガリー語音声認識に特化してファインチューニング

XLS-Rアーキテクチャベース

facebookのwav2vec2-xls-r-300mをベースモデルとして使用

高品質トレーニングデータ

Common Voice 8.0データセットを使用し、厳選されたデータ

モデル能力

ハンガリー語音声からテキストへ

連続音声認識

会話音声処理

使用事例

音声文字起こし

ハンガリー語音声を文字に変換

ハンガリー語音声コンテンツをテキストに変換

WER 0.285, CER 0.061

音声アシスタント

ハンガリー語音声コマンド認識

ハンガリー語音声アシスタントのフロントエンド音声認識に使用

🚀 Akashpb13/xlsr_hungarian_new

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - huデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セット（トレーニングデータセットの10％と、無効化データ、報告データ、その他のデータ、開発データセットをマージしたもの）で以下の結果を達成しています。

損失: 0.197464
単語誤り率 (Wer): 0.330094

✨ 主な機能

このモデルは、自動音声認識（Automatic Speech Recognition）タスクに特化しており、ハンガリー語の音声を高精度に認識することができます。

📦 インストール

READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。

💻 使用例

READMEに使用例に関する具体的なコードが記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの説明

"facebook/wav2vec2-xls-r-300m" がファインチューニングされました。

想定される用途と制限

詳細情報が必要です。

トレーニングと評価データ

トレーニングデータ - Common voice のハンガリー語の train.tsv、dev.tsv、invalidated.tsv、reported.tsv、および other.tsv。 Common voice 7.0で提供されるすべてのデータセットを連結した後、アップボートがダウンボートより多いポイントのみが考慮され、重複が削除されました。

トレーニング手順

トレーニングデータセットを作成するために、すべての可能なデータセットが追加され、90-10の分割が使用されました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.000095637994662983496
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
乱数シード (seed): 13
勾配累積ステップ数 (gradient_accumulation_steps): 16
学習率スケジューラのタイプ (lr_scheduler_type): cosine_with_restarts
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 100
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率 (Wer)
500	4.785300	0.952295	0.796236
1000	0.535800	0.217474	0.381613
1500	0.258400	0.205524	0.345056
2000	0.202800	0.198680	0.336264
2500	0.182700	0.197464	0.330094

フレームワークのバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価するには

python eval.py --model_id Akashpb13/xlsr_hungarian_new --dataset mozilla-foundation/common_voice_8_0 --config hu --split test

🔧 技術詳細

このモデルは、自動音声認識タスクにおいて、ハンガリー語の音声を高精度に認識するために開発されました。"facebook/wav2vec2-xls-r-300m" をベースに、Common Voice 8.0のハンガリー語データセットを使用してファインチューニングされました。トレーニングには、特定のハイパーパラメータが使用され、90-10のデータ分割を行っています。評価では、単語誤り率（Wer）と文字誤り率（Cer）が使用されています。