ハウサ語 - ASRオープンソースのハウサ語自動音声認識モデル - 高精度な認識が言語コミュニケーションをサポート

ホーム

Hausa Asr

Cdialによって開発

facebook/wav2vec2-xls-r-300mを基にファインチューニングしたハウサ語自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ハウサ語音声認識 #低単語誤り率 #マルチシーン適応

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

このモデルはハウサ語向けに最適化された自動音声認識(ASR)モデルで、XLS-Rアーキテクチャを基にファインチューニングされ、Common Voiceのハウサ語データセットでトレーニングされました

モデル特徴

マルチデータセットトレーニング

Common Voice 8.0ハウサ語の全有効データ（train/dev/invalidated/reported/other）を統合

高品質データ選別

賛成票が反対票を上回るデータポイントのみを使用し、重複を除去

最適化トレーニング戦略

再起動付きコサインアニーリング学習率スケジューリングと混合精度トレーニングを採用

モデル能力

ハウサ語音声認識

音声からテキストへの変換

ロバストな音声イベント検出

使用事例

音声技術応用

ハウサ語音声アシスタント

ハウサ語ユーザー向け音声インタラクション機能を提供

音声文字起こしサービス

ハウサ語音声コンテンツを文字に変換

CER 0.0436, WER 0.2061

🚀 Cdial/Hausa_xlsr

このモデルは、facebook/wav2vec2-xls-r-300m をファインチューニングしたバージョンです。評価セット（トレインデータセットの10％と、無効化データ、報告データ、その他のデータ、開発データセットをマージしたもの）で以下の結果を達成しています。

損失: 0.275118
単語誤り率 (Wer): 0.329955

✨ 主な機能

このモデルは自動音声認識タスクに特化しており、ハウサ語の音声を高精度に認識することができます。

📦 インストール

READMEにインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

READMEに使用例のコードが記載されていないため、このセクションを省略します。

📚 詳細ドキュメント

モデルの説明

"facebook/wav2vec2-xls-r-300m" をファインチューニングしたモデルです。

想定される用途と制限

このセクションに必要な情報が不足しているため、詳細は提供されていません。

トレーニングと評価データ

トレーニングデータは、Common voice Hausa の train.tsv、dev.tsv、invalidated.tsv、reported.tsv、および other.tsv です。アップボートがダウンボートより多いポイントのみを考慮し、Common voice 7.0 で提供されるすべてのデータセットを連結した後に重複を削除しました。

トレーニング手順

トレーニングデータセットを作成するために、すべての可能なデータセットを追加し、90-10の分割を使用しました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.000096
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
乱数シード (seed): 13
勾配累積ステップ (gradient_accumulation_steps): 2
学習率スケジューラのタイプ (lr_scheduler_type): cosine_with_restarts
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 50
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率 (Wer)
500	5.175900	2.750914	1.000000
1000	1.028700	0.338649	0.497999
1500	0.332200	0.246896	0.402241
2000	0.227300	0.239640	0.395839
2500	0.175000	0.239577	0.373966
3000	0.140400	0.243272	0.356095
3500	0.119200	0.263761	0.365164
4000	0.099300	0.265954	0.353428
4500	0.084400	0.276367	0.349693
5000	0.073700	0.282631	0.343825
5500	0.068000	0.282344	0.341158
6000	0.064500	0.281591	0.342491

フレームワークのバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価するには、以下のコマンドを実行します。

python eval.py --model_id Akashpb13/Hausa_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

🔧 技術詳細

READMEに具体的な技術説明が50文字以上記載されていないため、このセクションを省略します。

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご