wav2vec2-large-xlsr-galician開源自動語音識別模型

首頁

Wav2vec2 Large Xlsr Galician

由ifrz開發

針對加利西亞語優化的自動語音識別模型，基於wav2vec2-large-xlsr-53微調，WER指標7.12

語音識別

Transformers

#加利西亞語語音識別 #低WER(7.12)#XLSR微調

下載量 9,330

發布時間 : 4/29/2022

模型概述

這是一個專門用於加利西亞語語音識別的微調模型，基於Facebook的wav2vec2-large-xlsr-53架構，在OpenSLR和Common Voice數據集上進行了優化訓練。

模型特點

低詞錯誤率

在測試集上達到7.12%的詞錯誤率(WER)，表現優異

多數據集訓練

結合OpenSLR和Mozilla Common Voice兩個高質量數據集進行微調

基於XLSR架構

利用跨語言語音表示學習(XLSR)的強大基礎模型進行優化

模型能力

加利西亞語語音識別

音頻轉文本

16kHz單聲道音頻處理

使用案例

語音轉錄

加利西亞語語音轉文字

將加利西亞語語音內容轉換為準確文本

7.12%詞錯誤率

語音助手

加利西亞語語音指令識別

用於加利西亞語語音助手系統的語音指令理解

🚀 wav2vec2-large-xlsr-galician

這是一個針對加利西亞語微調的語音識別模型，基於自監督模型構建，使用特定數據集進行訓練，可實現準確的語音轉錄。

🚀 快速開始

本模型是針對加利西亞語的微調模型，基於 facebook/wav2vec2-large-xlsr-53 自監督模型構建。使用來自 OpenSLR 和 Mozilla Common_Voice 的標註音頻進行微調（兩個數據集此前均經過精煉處理）。可查看訓練指標以瞭解結果。

✨ 主要特性

語言針對性：專為加利西亞語設計，能更好地處理該語言的語音識別任務。
模型基礎：基於強大的自監督模型，為準確識別提供基礎。
多數據集訓練：使用多個數據集進行微調，提升模型的泛化能力。

📦 安裝指南

文檔未提及具體安裝步驟，可根據 transformers 庫的常規安裝方法進行安裝。例如，使用 pip 安裝：

pip install transformers

💻 使用示例

基礎用法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model = Wav2Vec2ForCTC.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")
processor = Wav2Vec2Processor.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")

# Reading taken audio clip
import librosa, torch
audio, rate = librosa.load("./gl_test_1.wav", sr = 16000)

# Taking an input value
input_values = processor(audio, sampling_rate=16_000, return_tensors = "pt", padding="longest").input_values
# Storing logits (non-normalized prediction values)
logits = model(input_values).logits
# Storing predicted ids
prediction = torch.argmax(logits, dim = -1)

# Passing the prediction to the tokenzer decode to get the transcription
transcription = processor.batch_decode(prediction)[0]
print(transcription)

注意事項

⚠️ 重要提示

確保音頻輸入採樣率為 16kHz（單聲道）。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	針對加利西亞語微調的語音識別模型
訓練數據	OpenSLR 77、mozilla-foundation common_voice_8_0
評估指標	WER（詞錯誤率）
許可證	apache - 2.0