wav2vec2-large-xlsr-53-spanish-ep5-944h開源模型 - 精準實現西班牙語自動語音識別

首頁

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

由carlosdanielhernandezmena開發

適用於西班牙語自動語音識別的聲學模型，基於facebook/wav2vec2-large-xlsr-53微調5個週期，使用約944小時西班牙語數據。

語音識別

Transformers

西班牙語#西班牙語語音識別 #多方言支持 #高精度WER

下載量 111

發布時間 : 12/1/2022

模型概述

該模型是專門為西班牙語語音識別設計的聲學模型，通過在大規模西班牙語數據集上微調得到，適用於多種西班牙語語音識別場景。

模型特點

多數據集訓練

使用了來自CIEMPIESS-UNAM項目和其他公共存儲庫的約944小時西班牙語數據進行訓練

低WER

在多個測試集上表現出色，如Mozilla Common Voice 10.0測試集WER為9.20%

方言覆蓋

訓練數據包含多種西班牙語方言，如墨西哥、智利、哥倫比亞、秘魯、阿根廷和波多黎各等地的西班牙語

模型能力

西班牙語語音識別

多種方言識別

高精度轉錄

使用案例

語音轉錄

廣播新聞轉錄

用於轉錄西班牙語廣播新聞內容

在HUB4NE測試集上WER為7.48%

電話語音轉錄

用於轉錄電話對話內容

在CALLHOME測試集上WER為39.12%

語音助手

西班牙語語音指令識別

用於西班牙語語音助手中的指令識別

🚀 wav2vec2-large-xlsr-53-spanish-ep5-944h

該模型是適用於西班牙語自動語音識別的聲學模型。它通過對 "facebook/wav2vec2-large-xlsr-53" 模型進行 5 個週期的微調得到，使用了自 2012 年以來由 CIEMPIESS - UNAM 項目收集或開發的約 944 小時西班牙語數據。大部分數據可在 CIEMPIESS - UNAM 項目主頁 http://www.ciempiess.org/ 上獲取，其餘數據可在 LDC 或 OpenSLR 等公共資源庫中找到。

✨ 主要特性

適用場景：適用於西班牙語的自動語音識別任務。
數據來源廣泛：使用了多個不同來源的西班牙語語料庫進行微調。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC

#Load the processor and model.
MODEL_NAME="carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)

#Load the dataset
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("ciempiess/ciempiess_test", split="test")

#Downsample to 16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

#Process the dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    #Batched output is "un-batched" to ensure mapping is correct
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
    with processor.as_target_processor():
        batch["labels"] = processor(batch["normalized_text"]).input_ids
    return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)

#Define the evaluation metric
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)
    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
    pred_str = processor.batch_decode(pred_ids)
    #We do not want to group tokens when computing the metrics
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
    wer = wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

#Do the evaluation (with batch_size=1)
model = model.to(torch.device("cuda"))
def map_to_result(batch):
    with torch.no_grad():
        input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
        logits = model(input_values).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]
    batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
    return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)

#Compute the overall WER now.
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))

測試結果：0.112

📚 詳細文檔

模型使用的數據集

該模型微調使用的具體語料庫列表如下：

CIEMPIESS - LIGHT (18 小時 25 分鐘)
CIEMPIESS - BALANCE (18 小時 20 分鐘)
CIEMPIESS - FEM (13 小時 54 分鐘)
CHM150 (1 小時 38 分鐘)
TEDX_SPANISH (24 小時 29 分鐘)
LIBRIVOX_SPANISH (73 小時 01 分鐘)
WIKIPEDIA_SPANISH (25 小時 37 分鐘)
VOXFORGE_SPANISH (49 小時 42 分鐘)
MOZILLA COMMON VOICE 10.0 (320 小時 22 分鐘)
HEROICO (16 小時 33 分鐘)
LATINO - 40 (6 小時 48 分鐘)
CALLHOME_SPANISH (13 小時 22 分鐘)
HUB4NE_SPANISH (31 小時 41 分鐘)
FISHER_SPANISH (127 小時 22 分鐘)
智利西班牙語語音數據集 (7 小時 08 分鐘)
哥倫比亞西班牙語語音數據集 (7 小時 34 分鐘)
秘魯西班牙語語音數據集 (9 小時 13 分鐘)
阿根廷西班牙語語音數據集 (8 小時 01 分鐘)
波多黎各西班牙語語音數據集 (1 小時 00 分鐘)
MediaSpeech 西班牙語 (10 小時 00 分鐘)
[DIMEX100 - LIGHT (6 小時 09 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
[DIMEX100 - NIÑOS (08 小時 09 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
[GOLEM - UNIVERSUM (00 小時 10 分鐘)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
GLISSANDO (6 小時 40 分鐘)
TELE_con_CIENCIA (28 小時 16 分鐘) 未發佈材料
不可共享材料 (118 小時 22 分鐘) 不可共享

微調信息

微調過程於 2022 年 11 月在冰島雷克雅未克大學的語言與語音實驗室 (https://lvl.ru.is/) 的服務器上由 Carlos Daniel Hernández Mena 完成。

評估結果

任務	數據集名稱	數據集類型	劃分	語言	指標	值
自動語音識別	Mozilla Common Voice 10.0 (Test)	mozilla - foundation/common_voice_10_0	test	西班牙語	WER	9.20
自動語音識別	Mozilla Common Voice 10.0 (Dev)	mozilla - foundation/common_voice_10_0	validation	西班牙語	WER	8.02
自動語音識別	CIEMPIESS - TEST	ciempiess/ciempiess_test	test	西班牙語	WER	11.17
自動語音識別	1997 Spanish Broadcast News Speech (HUB4 - NE)	HUB4NE_LDC98S74	test	西班牙語	WER	7.48
自動語音識別	CALLHOME Spanish Speech (Test)	callhome_LDC96S35	test	西班牙語	WER	39.12
自動語音識別	CALLHOME Spanish Speech (Dev)	callhome_LDC96S35	validation	西班牙語	WER	40.39

📄 許可證

本模型使用的許可證為 CC - BY - 4.0。

📖 BibTeX 引用信息

在發佈基於這些模型的研究成果時，請參考以下引用：

@misc{mena2022xlrs53spanish,
      title={Acoustic Model in Spanish: wav2vec2-large-xlsr-53-spanish-ep5-944h.}, 
      author={Hernandez Mena, Carlos Daniel},
      url={https://huggingface.co/carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h},
      year={2022}
}

🙏 致謝

作者感謝墨西哥國立自治大學工程學院 (FI) 的社會服務項目 ["Desarrollo de Tecnologías del Habla"](http://profesores.fi - b.unam.mx/carlos_mena/servicio.html)，也感謝參與該社會服務項目的學生們的辛勤工作。

特別感謝語言與語音實驗室負責人 Jón Guðnason 提供計算資源，使該模型得以實現。作者還感謝由 Almannarómur 管理和協調、冰島教育、科學與文化部資助的 "2019 - 2023 年冰島語言技術計劃"。