wav2vec2-large-xlsr-53-spanishオープンソースモデル - 無料でデプロイしてスペイン語の音声を高精度で識別

Wav2vec2 Large Xlsr 53 Spanish

LuisG07によって開発

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたスペイン語自動音声認識（ASR）モデルで、Common Voiceスペイン語データセットで訓練され、16kHzのサンプリングレートの音声入力をサポートします。

音声認識スペイン語オープンソースライセンス:Apache-2.0 #スペイン語音声認識 #低単語誤り率（WER）#XLSR微調整

ダウンロード数 50

リリース時間 : 3/2/2022

モデル概要

これは、XLSR - 53アーキテクチャをベースに微調整された、スペイン語自動音声認識（ASR）用のWav2Vec2モデルで、スペイン語の音声をテキストに変換することができます。

モデル特徴

高精度認識

Common Voiceスペイン語テストセットで、8.82%の単語誤り率（WER）と2.58%の文字誤り率（CER）を達成します。

言語モデル強化

言語モデルを組み合わせると、単語誤り率をさらに6.27%に、文字誤り率を2.06%に下げることができます。

16kHzサンプリングレートのサポート

16kHzのサンプリングレートの音声入力を処理するために特別に最適化されています。

オープンソースライセンス

Apache - 2.0ライセンスを採用しており、商用および研究用途での使用が許可されています。

モデル能力

スペイン語音声認識

音声からテキストへの変換

自動音声文字起こし

使用事例

音声文字起こし

音声コンテンツの文字起こし

スペイン語の音声コンテンツを自動的にテキストに変換します。

高い精度の文字起こし結果

音声アシスタント

スペイン語音声コマンド認識

スペイン語の音声アシスタントまたはコマンド制御システムを構築するために使用されます。

🚀 Wav2Vec2-Large-XLSR-53-Spanish

このモデルは、https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish にカスタム言語モデルを追加したものです。facebook/wav2vec2-large-xlsr-53 を Common Voice のスペイン語データでファインチューニングしています。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルのファインチューニングは、OVHcloud から提供されたGPUクレジットのおかげで行われました。

🚀 クイックスタート

このモデルは、言語モデルを使用せずに直接利用できます。

✨ 主な機能

スペイン語の自動音声認識タスクに対応
カスタム言語モデルを追加することで、認識精度を向上

📦 インストール

インストールに関する具体的な手順は原ドキュメントに記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

ASRecognition ライブラリを使用する場合：

from asrecognition import ASREngine

asr = ASREngine("es", model_path="jonatasgrosman/wav2vec2-large-xlsr-53-spanish")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "es"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

認識結果の例

参照文	予測文
HABITA EN AGUAS POCO PROFUNDAS Y ROCOSAS.	HABITAN AGUAS POCO PROFUNDAS Y ROCOSAS
OPERA PRINCIPALMENTE VUELOS DE CABOTAJE Y REGIONALES DE CARGA.	OPERA PRINCIPALMENTE VUELO DE CARBOTAJES Y REGIONALES DE CARGAN
PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN.	PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN
TRES	TRES
REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA.	REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA
EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES.	EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES
SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS.	SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS
SÍ	SÍ
"FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ."	FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ
SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR.	SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR

📚 ドキュメント

評価方法

mozilla-foundation/common_voice_6_0 の test スプリットで評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset mozilla-foundation/common_voice_6_0 --config es --split test

speech-recognition-community-v2/dev_data で評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0

引用方法

このモデルを引用する場合は、以下のBibTeXを使用できます。

@misc{grosman2021wav2vec2-large-xlsr-53-spanish,
  title={XLSR Wav2Vec2 Spanish by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish}},
  year={2021}
}