wav2vec2-large-xlsr-53-sah-CV8オープンソース音声認識モデル

ホーム

Wav2vec2 Large Xlsr 53 Sah CV8

emreによって開発

facebook/wav2vec2-large-xlsr-53をベースに、汎用音声ヤクート語データセットで微調整した音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヤクート語音声認識 #低リソース言語処理 #XLSR - 53微調整

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルはヤクート語に最適化された自動音声認識（ASR）モデルで、汎用音声データセットで微調整され、ヤクート語の音声をテキストに変換するタスクに適しています。

モデル特徴

ヤクート語最適化

ヤクート語に特化して微調整され、この言語の認識精度が向上しました

XLSR - 53ベース

多言語音声表現モデルwav2vec2-large-xlsr-53をベースにしており、良好な多言語基礎を持っています

汎用音声データセット

Mozilla Common Voiceデータセットで訓練され、データ品質が信頼できます

モデル能力

ヤクート語音声認識

音声をテキストに変換

自動音声認識

使用事例

音声文字起こし

ヤクート語音声文字起こし

ヤクート語の音声内容をテキストに変換

Common Voice 8.0テストセットでのWERは43.75

音声アシスタント

ヤクート語音声インタラクション

ヤクート語の音声コマンド認識をサポート

🚀 wav2vec2-large-xlsr-53-sah-CV8

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5089
単語誤り率 (Wer): 0.5606

✨ 主な機能

このモデルは、音声認識タスクに使用され、Common Voice sahやCommon Voice 8.0などのデータセットで評価されています。
特定のハイパーパラメータを使用してトレーニングされ、一定の性能を発揮します。

📚 ドキュメント

モデルの詳細

このモデルに関するさらなる情報は、今後の更新で提供される予定です。

想定される用途と制限

このモデルの想定される用途と制限に関するさらなる情報は、今後の更新で提供される予定です。

トレーニングと評価データ

トレーニングと評価に使用されたデータに関するさらなる情報は、今後の更新で提供される予定です。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.0001
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総トレーニングバッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 300
エポック数 (num_epochs): 50
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.6849	16.67	500	1.1135	0.9344
0.8223	33.33	1000	0.5148	0.5686
0.5477	50.0	1500	0.5089	0.5606

フレームワークバージョン

Transformers 4.11.3
Pytorch 1.10.0+cu111
Datasets 1.18.1
Tokenizers 0.10.3

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご