wav2vec2-large-xlsr-glオープンソースモデル - ガリシア語の自動音声認識をサポート

ホーム

Wav2vec2 Large Xlsr Gl

diego-fustesによって開発

Facebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたガリシア語自動音声認識(ASR)モデルで、OpenSLR 77データセットで16.79%のWERを達成

音声認識 #ガリシア語音声認識 #低WERモデル #XLSRファインチューニング

ダウンロード数 2,264

リリース時間 : 3/2/2022

モデル概要

これはガリシア語に特化して最適化された自動音声認識モデルで、ガリシア語の音声をテキストに変換できます。

モデル特徴

高精度音声認識

ガリシア語テストセットで16.79%の単語誤り率(WER)を達成

大規模事前学習モデルベース

Facebookのwav2vec2-large-xlsr-53モデルをファインチューニングしており、強力な音声特徴抽出能力を継承

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力を処理するために特別に最適化

モデル能力

ガリシア語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

ガリシア語音声文字起こし

ガリシア語の音声コンテンツをテキスト形式に変換

16.79% WER

音声アシスタント

ガリシア語音声コマンド認識

ガリシア語音声アシスタントやスマートホームデバイスの音声コマンド認識に使用

🚀 Wav2Vec2-Large-XLSR-53

このモデルは、自動音声認識の分野において、ガリシア語の音声を高精度に認識するために開発されました。Galician Wav2Vec2-Large-XLSR-53を使用することで、ガリシア語の音声データを効果的に処理することができます。

🚀 クイックスタート

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

✨ 主な機能

ガリシア語の自動音声認識に特化したモデルです。
高精度な音声認識性能を備えており、テストデータでは16.79%のWER（Word Error Rate）を達成しています。

📦 インストール

このモデルの使用には、必要なライブラリをインストールする必要があります。以下のコードを参考にしてください。

# 必要なライブラリのインストール
pip install torch torchaudio datasets transformers

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "gl", split="test[:2%]")  # This is not available yet, load OpenSLR or your dataset instead

processor = Wav2Vec2Processor.from_pretrained("diego-fustes/wav2vec2-large-xlsr-gl")
model = Wav2Vec2ForCTC.from_pretrained("diego-fustes/wav2vec2-large-xlsr-gl")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
   speech_array, sampling_rate = torchaudio.load(batch["path"])
   batch["speech"] = resampler(speech_array).squeeze().numpy()
   return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
  logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

高度な使用法

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

test_dataset = load_dataset("common_voice", "gl", split="test")   # This is not available yet, load OpenSLR or your dataset instead
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("diego-fustes/wav2vec2-large-xlsr-gl")
model = Wav2Vec2ForCTC.from_pretrained("diego-fustes/wav2vec2-large-xlsr-gl")
model.to("cuda")

chars_to_ignore_regex = '[^a-záéíóúñ ]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
  inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

  with torch.no_grad():
    logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
  
  pred_ids = torch.argmax(logits, dim=-1)
  batch["pred_strings"] = processor.batch_decode(pred_ids)
  return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))