wav2vec2-large-xlsr-53-spanish-ep5-944hオープンソースモデル - スペイン語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

carlosdanielhernandezmenaによって開発

スペイン語自動音声認識用の音響モデルで、facebook/wav2vec2-large-xlsr-53を5エポックにわたってファインチューニングし、約944時間のスペイン語データを使用しています。

音声認識

Transformers

スペイン語#スペイン語音声認識 #多方言サポート #高精度WER

ダウンロード数 111

リリース時間 : 12/1/2022

モデル概要

このモデルはスペイン語音声認識専用に設計された音響モデルで、大規模なスペイン語データセットでファインチューニングされており、さまざまなスペイン語音声認識シナリオに適しています。

モデル特徴

複数データセットでのトレーニング

CIEMPIESS-UNAMプロジェクトやその他の公開リポジトリから約944時間のスペイン語データを使用してトレーニングされています

低WER

Mozilla Common Voice 10.0テストセットでWER9.20%など、複数のテストセットで優れた性能を発揮

方言カバレッジ

トレーニングデータにはメキシコ、チリ、コロンビア、ペルー、アルゼンチン、プエルトリコなどのさまざまなスペイン語方言が含まれています

モデル能力

スペイン語音声認識

多方言認識

高精度文字起こし

使用事例

音声文字起こし

放送ニュースの文字起こし

スペイン語放送ニュースコンテンツの文字起こしに使用

HUB4NEテストセットでWER7.48%

電話音声の文字起こし

電話会話内容の文字起こしに使用

CALLHOMEテストセットでWER39.12%

音声アシスタント

スペイン語音声コマンド認識

スペイン語音声アシスタントのコマンド認識に使用

🚀 wav2vec2-large-xlsr-53-spanish-ep5-944h

「wav2vec2-large-xlsr-53-spanish-ep5-944h」は、スペイン語の自動音声認識に適した音響モデルです。このモデルは、2012年以来CIEMPIESS-UNAM Projectによって収集または開発された約944時間のスペイン語データを用いて、「facebook/wav2vec2-large-xlsr-53」モデルを5エポックでファインチューニングした成果物です。

✨ 主な機能

スペイン語の自動音声認識に特化した音響モデルです。
多様なスペイン語コーパスを用いてファインチューニングされています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC

#Load the processor and model.
MODEL_NAME="carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)

#Load the dataset
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("ciempiess/ciempiess_test", split="test")

#Downsample to 16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

#Process the dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    #Batched output is "un-batched" to ensure mapping is correct
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
    with processor.as_target_processor():
        batch["labels"] = processor(batch["normalized_text"]).input_ids
    return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)

#Define the evaluation metric
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)
    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
    pred_str = processor.batch_decode(pred_ids)
    #We do not want to group tokens when computing the metrics
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
    wer = wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

#Do the evaluation (with batch_size=1)
model = model.to(torch.device("cuda"))
def map_to_result(batch):
    with torch.no_grad():
        input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
        logits = model(input_values).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]
    batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
    return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)

#Compute the overall WER now.
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))

📚 ドキュメント

モデルの詳細

「wav2vec2-large-xlsr-53-spanish-ep5-944h」は、スペイン語の自動音声認識に適した音響モデルです。このモデルは、「facebook/wav2vec2-large-xlsr-53」をベースに、以下のコーパスを用いて5エポックでファインチューニングされています。

CIEMPIESS-LIGHT (18h25m)
CIEMPIESS-BALANCE (18h20m)
CIEMPIESS-FEM (13h54m)
CHM150 (1h38m)
TEDX_SPANISH (24h29m)
LIBRIVOX_SPANISH (73h01m)
WIKIPEDIA_SPANISH (25h37m)
VOXFORGE_SPANISH (49h42m)
MOZILLA COMMON VOICE 10.0 (320h22m)
HEROICO (16h33m)
LATINO-40 (6h48m)
CALLHOME_SPANISH (13h22m)
HUB4NE_SPANISH (31h41m)
FISHER_SPANISH (127h22m)
Chilean Spanish speech data set (7h08m)
Colombian Spanish speech data set (7h34m)
Peruvian Spanish speech data set (9h13m)
Argentinian Spanish speech data set (8h01m)
Puerto Rico Spanish speech data set (1h00m)
MediaSpeech Spanish (10h00m)
DIMEX100-LIGHT (6h09m)
DIMEX100-NIÑOS (08h09m)
GOLEM-UNIVERSUM (00h10m)
GLISSANDO (6h40m)
TELE_con_CIENCIA (28h16m) Unplished Material
UNSHAREABLE MATERIAL (118h22m) Not available for sharing

評価結果

データセット	タスク	WER
Mozilla Common Voice 10.0 (Test)	自動音声認識	9.20
Mozilla Common Voice 10.0 (Dev)	自動音声認識	8.02
CIEMPIESS-TEST	自動音声認識	11.17
1997 Spanish Broadcast News Speech (HUB4-NE)	自動音声認識	7.48
CALLHOME Spanish Speech (Test)	自動音声認識	39.12
CALLHOME Spanish Speech (Dev)	自動音声認識	40.39

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

このモデルは、CC BY 4.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

このモデルに基づく結果を公開する際には、以下のBibTeXエントリを引用してください。

@misc{mena2022xlrs53spanish,
      title={Acoustic Model in Spanish: wav2vec2-large-xlsr-53-spanish-ep5-944h.}, 
      author={Hernandez Mena, Carlos Daniel},
      url={https://huggingface.co/carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h},
      year={2022}
}

謝辞

著者は、Universidad Nacional Autónoma de México (UNAM)のFacultad de Ingeniería (FI)における社会奉仕プログラム"Desarrollo de Tecnologías del Habla"に感謝します。また、社会奉仕を行った学生たちの尽力にも感謝します。

特に、Language and Voice Labの責任者であるJón Guðnason氏には、このモデルを実現するための計算資源を提供してくれたことに感謝します。また、Almannarómurによって管理および調整され、アイスランド教育科学文化省によって資金提供されている「Language Technology Programme for Icelandic 2019 - 2023」にも感謝します。