🚀 wav2vec2-large-xlsr-53-spanish-ep5-944h
「wav2vec2-large-xlsr-53-spanish-ep5-944h」は、スペイン語の自動音声認識に適した音響モデルです。このモデルは、2012年以来CIEMPIESS-UNAM Projectによって収集または開発された約944時間のスペイン語データを用いて、「facebook/wav2vec2-large-xlsr-53」モデルを5エポックでファインチューニングした成果物です。
✨ 主な機能
- スペイン語の自動音声認識に特化した音響モデルです。
- 多様なスペイン語コーパスを用いてファインチューニングされています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
基本的な使用法
import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC
MODEL_NAME="carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("ciempiess/ciempiess_test", split="test")
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
def prepare_dataset(batch):
audio = batch["audio"]
batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
with processor.as_target_processor():
batch["labels"] = processor(batch["normalized_text"]).input_ids
return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
pred_logits = pred.predictions
pred_ids = np.argmax(pred_logits, axis=-1)
pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
pred_str = processor.batch_decode(pred_ids)
label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
wer = wer_metric.compute(predictions=pred_str, references=label_str)
return {"wer": wer}
model = model.to(torch.device("cuda"))
def map_to_result(batch):
with torch.no_grad():
input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)
batch["pred_str"] = processor.batch_decode(pred_ids)[0]
batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))
📚 ドキュメント
モデルの詳細
「wav2vec2-large-xlsr-53-spanish-ep5-944h」は、スペイン語の自動音声認識に適した音響モデルです。このモデルは、「facebook/wav2vec2-large-xlsr-53」をベースに、以下のコーパスを用いて5エポックでファインチューニングされています。
評価結果
データセット |
タスク |
WER |
Mozilla Common Voice 10.0 (Test) |
自動音声認識 |
9.20 |
Mozilla Common Voice 10.0 (Dev) |
自動音声認識 |
8.02 |
CIEMPIESS-TEST |
自動音声認識 |
11.17 |
1997 Spanish Broadcast News Speech (HUB4-NE) |
自動音声認識 |
7.48 |
CALLHOME Spanish Speech (Test) |
自動音声認識 |
39.12 |
CALLHOME Spanish Speech (Dev) |
自動音声認識 |
40.39 |
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションを省略します。
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。
BibTeXエントリと引用情報
このモデルに基づく結果を公開する際には、以下のBibTeXエントリを引用してください。
@misc{mena2022xlrs53spanish,
title={Acoustic Model in Spanish: wav2vec2-large-xlsr-53-spanish-ep5-944h.},
author={Hernandez Mena, Carlos Daniel},
url={https://huggingface.co/carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h},
year={2022}
}
謝辞
著者は、Universidad Nacional Autónoma de México (UNAM)のFacultad de Ingeniería (FI)における社会奉仕プログラム"Desarrollo de Tecnologías del Habla"に感謝します。また、社会奉仕を行った学生たちの尽力にも感謝します。
特に、Language and Voice Labの責任者であるJón Guðnason氏には、このモデルを実現するための計算資源を提供してくれたことに感謝します。また、Almannarómurによって管理および調整され、アイスランド教育科学文化省によって資金提供されている「Language Technology Programme for Icelandic 2019 - 2023」にも感謝します。