wav2vec2-large-xlsr-53-spanish開源模型 - 免費部署精準識別西班牙語語音

首頁

Wav2vec2 Large Xlsr 53 Spanish

由LuisG07開發

基於facebook/wav2vec2-large-xlsr-53模型微調的西班牙語自動語音識別(ASR)模型，在Common Voice西班牙語數據集上訓練，支持16kHz採樣率的語音輸入。

語音識別西班牙語開源協議:Apache-2.0 #西班牙語語音識別 #低詞錯誤率(WER)#XLSR微調

下載量 50

發布時間 : 3/2/2022

模型概述

這是一個用於西班牙語自動語音識別(ASR)的Wav2Vec2模型，基於XLSR-53架構微調而成，能夠將西班牙語語音轉換為文本。

模型特點

高精度識別

在Common Voice西班牙語測試集上達到8.82%的詞錯誤率(WER)和2.58%的字錯誤率(CER)

語言模型增強

結合語言模型後，詞錯誤率可進一步降低至6.27%，字錯誤率降至2.06%

16kHz採樣率支持

專門優化用於處理16kHz採樣率的語音輸入

開源許可

採用Apache-2.0許可證，允許商業和研究使用

模型能力

西班牙語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

語音內容轉錄

將西班牙語語音內容自動轉換為文本

高準確率的轉錄結果

語音助手

西班牙語語音命令識別

用於構建西班牙語語音助手或命令控制系統

🚀 Wav2Vec2-Large-XLSR-53-西班牙語模型

本項目在 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish 的基礎上添加了自定義語言模型。它基於 Common Voice 數據集，在西班牙語數據上對 facebook/wav2vec2-large-xlsr-53 模型進行了微調。使用此模型時，請確保語音輸入的採樣率為 16kHz。

該模型的訓練得益於 OVHcloud 慷慨提供的 GPU 計算資源。訓練腳本可在 https://github.com/jonatasgrosman/wav2vec2-sprint 找到。

✨ 主要特性

微調模型：基於 facebook/wav2vec2-large-xlsr-53 在西班牙語數據上進行微調。
自定義語言模型：添加了自定義語言模型，提升識別效果。
多數據集支持：可在多個數據集上進行評估。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

使用 ASRecognition 庫進行語音識別：

from asrecognition import ASREngine

asr = ASREngine("es", model_path="jonatasgrosman/wav2vec2-large-xlsr-53-spanish")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

高級用法

編寫自己的推理腳本進行語音識別：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "es"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分識別結果示例：

參考文本	預測文本
HABITA EN AGUAS POCO PROFUNDAS Y ROCOSAS.	HABITAN AGUAS POCO PROFUNDAS Y ROCOSAS
OPERA PRINCIPALMENTE VUELOS DE CABOTAJE Y REGIONALES DE CARGA.	OPERA PRINCIPALMENTE VUELO DE CARBOTAJES Y REGIONALES DE CARGAN
PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN.	PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN
TRES	TRES
REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA.	REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA
EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES.	EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES
SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS.	SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS
SÍ	SÍ
"FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ."	FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ
SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR.	SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR

📚 詳細文檔

評估方法

在 mozilla-foundation/common_voice_6_0 數據集的 test 分割上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset mozilla-foundation/common_voice_6_0 --config es --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 模型信息

屬性	詳情
模型類型	XLSR Wav2Vec2 西班牙語模型
訓練數據	Common Voice、mozilla-foundation/common_voice_6_0
評估指標	WER（詞錯誤率）、CER（字符錯誤率）

模型評估結果

Common Voice es 數據集（測試集）
- Test WER: 8.82
- Test CER: 2.58
- Test WER (+LM): 6.27
- Test CER (+LM): 2.06
Robust Speech Event - Dev Data 數據集（驗證集）
- Dev WER: 30.19
- Dev CER: 13.56
- Dev WER (+LM): 24.71
- Dev CER (+LM): 12.61

📖 引用信息

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021wav2vec2-large-xlsr-53-spanish,
  title={XLSR Wav2Vec2 Spanish by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish}},
  year={2021}
}