wav2vec2-xls-r-60-urduオープンソース音声認識モデル - ウルドゥー語の音声内容を精度良く認識

ホーム

Wav2vec2 Xls R 60 Urdu

Maniacによって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をCommon Voiceウルドゥー語データセットでファインチューニングした自動音声認識モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウルドゥー語ASR #低リソース音声認識 #Common Voiceファインチューニング

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

ウルドゥー語音声をテキストに変換するタスクのための自動音声認識モデル、wav2vec2アーキテクチャに基づく

モデル特徴

高精度ウルドゥー語認識

Common Voiceウルドゥー語データセットでファインチューニングされ、ウルドゥー語音声に最適化されています

wav2vec2アーキテクチャ採用

facebookのwav2vec2-large-xlsr-53事前学習モデルをベースにしています

オープンソースライセンス

Apache 2.0ライセンスを使用しており、商用・研究用途が可能です

モデル能力

ウルドゥー語音声認識

音声からテキストへの変換

音声コンテンツの文字起こし

使用事例

音声文字起こし

ウルドゥー語音声からテキストへ

ウルドゥー語音声コンテンツをテキスト形式に変換

単語誤り率(WER)0.9852

音声アシスタント

ウルドゥー語音声インタラクション

ウルドゥー語音声アシスタントに音声認識機能を提供

🚀 音声自動認識モデル

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - URデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 3.8433
単語誤り率 (Wer): 0.9852

🚀 クイックスタート

このモデルは音声自動認識タスクに使用できます。MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - URデータセットで訓練されています。

✨ 主な機能

音声自動認識タスクに適用可能
特定のデータセットでファインチューニングされている

📚 ドキュメント

モデルの説明

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

訓練と評価データ

詳細な情報は後日提供予定です。

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.0003
訓練バッチサイズ (train_batch_size): 64
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総訓練バッチサイズ (total_train_batch_size): 128
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
訓練ステップ数 (training_steps): 2000
混合精度訓練 (mixed_precision_training): Native AMP

訓練結果

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
1.468	166.67	500	3.0262	1.0035
0.0572	333.33	1000	3.5352	0.9721
0.0209	500.0	1500	3.7266	0.9834
0.0092	666.67	2000	3.8433	0.9852

フレームワークのバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご