wav2vec2-large-xlsr-53-italian開源模型 - 精準實現意大利語自動語音識別

首頁

Wav2vec2 Large Xlsr 53 Italian

由jonatasgrosman開發

基於facebook/wav2vec2-large-xlsr-53模型微調的意大利語自動語音識別模型，在Common Voice 6.1數據集上訓練

語音識別其他開源協議:Apache-2.0 #意大利語語音識別 #低詞錯誤率 #XLSR微調

下載量 1,012

發布時間 : 3/2/2022

模型概述

該模型是針對意大利語優化的自動語音識別(ASR)模型，基於XLSR-53架構微調，支持16kHz採樣率的語音輸入轉換

模型特點

高性能意大利語識別

在Common Voice意大利語測試集上達到9.41%的詞錯誤率(WER)和2.29%的字符錯誤率(CER)

語言模型增強

結合語言模型後，詞錯誤率可進一步降低至6.91%，字符錯誤率降至1.83%

多場景適用

在標準測試集和魯棒語音賽事開發集上均表現良好，顯示較強的泛化能力

易用集成

提供HuggingSound庫和自定義腳本兩種使用方式，便於快速集成到應用中

模型能力

意大利語語音轉文本

16kHz音頻處理

批量語音識別

長音頻分塊處理

使用案例

語音轉錄

意大利語語音內容轉錄

將意大利語語音內容轉換為文本格式

高準確率的轉錄結果，適合內容存檔和分析

語音助手

意大利語語音指令識別

用於意大利語語音助手系統中的指令識別

低延遲高準確率的指令識別

無障礙應用

語音轉文字輔助

為聽力障礙人士提供即時語音轉文字服務

高準確率的即時轉換

🚀 用於意大利語語音識別的微調XLSR - 53大模型

本模型是在意大利語語料上對 facebook/wav2vec2-large-xlsr-53 進行微調得到的，使用了 Common Voice 6.1 的訓練集和驗證集。使用此模型時，請確保語音輸入的採樣率為16kHz。

該模型的微調得益於 OVHcloud 慷慨提供的GPU計算資源。

訓練腳本可在此處找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速開始

本模型基於 facebook/wav2vec2-large-xlsr-53 在意大利語數據集上微調而來，可用於意大利語的自動語音識別任務。使用時需注意語音輸入的採樣率為16kHz。

✨ 主要特性

微調模型：基於XLSR - 53大模型在意大利語上進行微調，適配意大利語語音識別。
多數據集支持：使用了Common Voice等數據集進行訓練和評估。
指標評估：提供了詞錯誤率（WER）和字符錯誤率（CER）等評估指標。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫（如huggingsound、transformers、librosa、datasets等）的官方安裝說明。

💻 使用示例

基礎用法

使用 HuggingSound 庫進行語音識別：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-italian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "it"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-italian"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分識別結果示例：

參考文本	預測文本
POI LEI MORÌ.	POI LEI MORÌ
IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI.	IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI
"FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE."	FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE
IL VUOTO ASSOLUTO?	IL VUOTO ASSOLUTO
DOPO ALCUNI ANNI, EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI.	DOPO ALCUNI ANNI EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI
SALVATION SUE	SALVATION SOO
IN QUESTO MODO, DECIO OTTENNE IL POTERE IMPERIALE.	IN QUESTO MODO DECHO OTTENNE IL POTERE IMPERIALE
SPARTA NOVARA ACQUISISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA.	PARCANOVARACFILISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA
IN SEGUITO, KYGO E SHEAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE.	IN SEGUITO KIGO E SHIAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE
ALAN CLARKE	ALAN CLARK

📚 詳細文檔

評估方法

在 mozilla-foundation/common_voice_6_0 數據集的 test 分割上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset mozilla-foundation/common_voice_6_0 --config it --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset speech-recognition-community-v2/dev_data --config it --split validation --chunk_length_s 5.0 --stride_length_s 1.0

模型指標

屬性	詳情
模型類型	用於意大利語語音識別的微調XLSR - 53大模型
訓練數據	Common Voice、mozilla - foundation/common_voice_6_0
評估指標	詞錯誤率（WER）、字符錯誤率（CER）

部分評估結果如下：

在Common Voice it數據集上：
- 測試集WER：9.41
- 測試集CER：2.29
- 測試集WER (+LM)：6.91
- 測試集CER (+LM)：1.83
在Robust Speech Event - Dev Data數據集上：
- 開發集WER：21.78
- 開發集CER：7.94
- 開發集WER (+LM)：15.82
- 開發集CER (+LM)：6.83

📄 許可證

本模型使用Apache 2.0許可證。

🔧 技術細節

本模型基於 facebook/wav2vec2-large-xlsr-53 進行微調，使用了 Common Voice 6.1 的訓練集和驗證集。在微調過程中，通過GPU計算資源進行訓練，以適配意大利語的語音識別任務。

📚 引用說明

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-italian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {I}talian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-italian}},
  year={2021}
}