wav2vec2-large-xlsr-53-spanish開源模型 - 精準支持西班牙語語音識別

首頁

Wav2vec2 Large Xlsr 53 Spanish

由jonatasgrosman開發

基於facebook/wav2vec2-large-xlsr-53模型微調的西班牙語語音識別模型，在Common Voice 6.1西班牙語數據集上訓練

語音識別西班牙語開源協議:Apache-2.0 #西班牙語語音識別 #低詞錯誤率(6.27)#XLSR-53微調

下載量 46.28k

發布時間 : 3/2/2022

模型概述

針對西班牙語優化的自動語音識別(ASR)模型，支持16kHz採樣率的語音輸入轉換為文本

模型特點

高性能西班牙語識別

在Common Voice西班牙語測試集上達到8.82%的詞錯誤率(WER)

語言模型增強

結合語言模型後詞錯誤率可降至6.27%，顯著提升識別準確率

基於XLSR-53大模型

基於facebook/wav2vec2-large-xlsr-53模型微調，具備強大的語音特徵提取能力

模型能力

西班牙語語音識別

音頻轉文本

支持16kHz採樣率音頻處理

使用案例

語音轉錄

語音內容轉錄

將西班牙語語音內容轉換為文本格式

高準確率的轉錄結果

語音助手

西班牙語語音交互

為西班牙語語音助手提供語音識別能力

🚀 用於西班牙語語音識別的微調XLSR - 53大型模型

本項目是在西班牙語數據集上對 facebook/wav2vec2-large-xlsr-53 模型進行微調的成果。使用的訓練和驗證集來自 Common Voice 6.1。使用該模型時，請確保語音輸入的採樣率為16kHz。

此模型的微調得益於 OVHcloud 慷慨提供的GPU計算資源。訓練腳本可在此處找到。

🚀 快速開始

本模型可直接使用（無需語言模型），下面為你介紹具體使用方法。

✨ 主要特性

數據集：使用 common_voice 和 mozilla-foundation/common_voice_6_0 數據集進行訓練。
評估指標：使用 wer（詞錯誤率）和 cer（字符錯誤率）進行評估。
適用場景：適用於西班牙語的自動語音識別任務。

屬性	詳情
模型類型	用於西班牙語語音識別的微調XLSR - 53大型模型
訓練數據	common_voice、mozilla - foundation/common_voice_6_0

📦 安裝指南

文檔未提供具體安裝步驟，可參考相關依賴庫的安裝說明，如 transformers、librosa、datasets 等。

💻 使用示例

基礎用法

使用 HuggingSound 庫進行語音識別：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-spanish")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "es"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分預測結果示例：

參考文本	預測文本
HABITA EN AGUAS POCO PROFUNDAS Y ROCOSAS.	HABITAN AGUAS POCO PROFUNDAS Y ROCOSAS
OPERA PRINCIPALMENTE VUELOS DE CABOTAJE Y REGIONALES DE CARGA.	OPERA PRINCIPALMENTE VUELO DE CARBOTAJES Y REGIONALES DE CARGAN
PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN.	PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN
TRES	TRES
REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA.	REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA
EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES.	EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES
SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS.	SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS
SÍ	SÍ
"FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ."	FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ
SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR.	SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR

📚 詳細文檔

評估

在 mozilla-foundation/common_voice_6_0 數據集的 test 分割上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset mozilla-foundation/common_voice_6_0 --config es --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 許可證

本項目採用 apache - 2.0 許可證。

🔖 引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-spanish,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {S}panish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish}},
  year={2021}
}