wav2vec2-large-xls-r-300m-urduオープンソース音声認識モデル - ウルドゥー語の音声自動認識をサポート

ホーム

Wav2vec2 Large Xls R 300m Urdu

infinitejoyによって開発

これはfacebook/wav2vec2 - xls - r - 300mをベースに、ウルドゥー語Common Voice 7データセットで微調整された自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #多方言対応 #低リソース最適化

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

このモデルは主にウルドゥー語の自動音声認識タスクに使用され、ウルドゥー語の音声をテキストに変換することができます。

モデル特徴

ウルドゥー語音声認識

ウルドゥー語に特化して最適化された音声認識能力

XLS - Rアーキテクチャに基づく

FacebookのXLS - R - 300M事前学習モデルをベースに使用

Common Voiceデータセットでの学習

Mozilla Common Voice 7ウルドゥー語データセットで微調整

モデル能力

ウルドゥー語音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

ウルドゥー語音声文字起こし

ウルドゥー語の音声内容をテキストに変換

音声アシスタント

ウルドゥー語音声対話

ウルドゥー語音声アシスタントに認識能力を提供

🚀 XLS - R - 300M - ウルドゥー語モデル

このモデルは自動音声認識用のモデルで、事前学習モデルを微調整して作成されました。ウルドゥー語の音声認識タスクで特定の評価結果を得ており、関連する音声認識シーンに適用できます。

🚀 クイックスタート

このモデルは facebook/wav2vec2 - xls - r - 300m を MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR データセットで微調整したバージョンです。評価セットでは以下の結果を得ています。

損失：未提供
字錯率（Wer）：未提供

評価コマンド

mozilla - foundation/common_voice_7_0 データセットの test 分割で評価を行う：

python eval.py \
    --model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
    --config ur --split validation --chunk_length_s 10 --stride_length_s 1

推論例

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text

コモンボイス 7 “テスト” セットでの評価結果（字錯率）

ドキュメントで具体的な評価結果の数値は明記されていません。

✨ 主な機能

微調整モデル：facebook/wav2vec2 - xls - r - 300m モデルをウルドゥー語データセットで微調整しています。
多フレームワーク対応：Transformers、Pytorch、Datasets、Tokenizers などのフレームワークと互換性があります。

🔧 技術詳細

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率：7.5e - 05
学習バッチサイズ：8
評価バッチサイズ：8
乱数シード：42
勾配累積ステップ数：4
総学習バッチサイズ：32
オプティマイザ：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学習率スケジューラタイプ：線形
学習率スケジューラのウォームアップステップ数：2000
学習エポック数：50.0
混合精度学習：Native AMP

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

📄 ライセンス

このモデルは Apache - 2.0 ライセンスを使用しています。

📋 モデル情報テーブル

属性	詳細
モデルタイプ	自動音声認識モデル
学習データ	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR データセット
モデル名	XLS - R - 300M - ウルドゥー語
評価指標（テストセットの字錯率）	105.66
評価指標（テストセットの文字誤り率）	434.011