wav2vec2-large-xlsr - 53 - punjabiオープンソースモデル - 旁遮普語の自動音声認識を無料で実現

ホーム

Wav2vec2 Large Xlsr 53 Punjabi

kingabzproによって開発

これはHarveenchadha/vakyansh-wav2vec2-punjabi-pam-10をベースにCommon Voiceデータセットでファインチューニングしたパンジャーブ語自動音声認識モデルです

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #パンジャーブ語音声認識 #低単語誤り率 #多方言サポート

ダウンロード数 189

リリース時間 : 3/2/2022

モデル概要

このモデルはパンジャーブ語の自動音声認識タスクに使用され、パンジャーブ語音声をテキストに変換できます

モデル特徴

高精度音声認識

Common Voice pa-INテストセットで36.02のWERと12.81のCERを達成

大規模モデルベースのファインチューニング

Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10モデルをベースにファインチューニングし、強力な音声特徴抽出能力を継承

言語モデル統合サポート

言語モデルとの組み合わせ使用をサポートし、認識精度を向上

モデル能力

パンジャーブ語音声認識

音声からテキストへの変換

16kHzサンプリングレート音声処理をサポート

使用事例

音声書き起こし

パンジャーブ語音声書き起こし

パンジャーブ語音声コンテンツをテキストに変換

テストセットで36.02 WERを達成

音声アシスタント

パンジャーブ語音声アシスタント

パンジャーブ語をサポートする音声アシスタントアプリケーションの開発に使用

🚀 wav2vec2-large-xlsr-53-punjabi

このモデルは、Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10 を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.2101
単語誤り率 (Wer): 0.4939
文字誤り率 (Cer): 0.2238

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価するには

python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

📚 詳細ドキュメント

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0003
トレーニングバッチサイズ: 16
評価バッチサイズ: 8
シード: 42
勾配累積ステップ: 2
総トレーニングバッチサイズ: 32
オプティマイザ: Adam (ベータ=(0.9, 0.999)、イプシロン=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 200
エポック数: 30
混合精度トレーニング: Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
11.0563	3.7	100	1.9492	0.7123	0.3872
1.6715	7.41	200	1.3142	0.6433	0.3086
0.9117	11.11	300	1.2733	0.5657	0.2627
0.666	14.81	400	1.2730	0.5598	0.2534
0.4225	18.52	500	1.2548	0.5300	0.2399
0.3209	22.22	600	1.2166	0.5229	0.2372
0.2678	25.93	700	1.1795	0.5041	0.2276
0.2088	29.63	800	1.2101	0.4939	0.2238

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

📦 モデル情報

属性	详情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
トレーニングデータ	mozilla-foundation/common_voice_8_0
評価指標	単語誤り率 (Wer)、文字誤り率 (Cer)
ベースモデル	Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10
モデル名	wav2vec2-punjabi-V8-Abid
タスク	自動音声認識 (Automatic Speech Recognition)
データセット	Common Voice pa-IN (mozilla-foundation/common_voice_8_0, pa-IN)
評価結果 (Test WER With LM)	36.02
評価結果 (Test CER With LM)	12.81