xls-r-300m-es開源語音識別模型 - 精準實現西班牙語語音識別

首頁

Xls R 300m Es

由polodealvarado開發

基於西班牙語Common Voice數據集微調的語音識別模型，採用facebook/wav2vec2-xls-r-300m架構，在測試集上WER達到14.6%

語音識別

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語語音識別 #低WER模型 #5-gram語言模型集成

下載量 23

發布時間 : 3/2/2022

模型概述

這是一個針對西班牙語優化的自動語音識別(ASR)模型，通過微調XLS-R-300M預訓練模型實現，適用於西班牙語語音轉文本任務。

模型特點

高性能西班牙語識別

在Common Voice 8.0西班牙語測試集上達到14.6%的WER指標

支持5-gram語言模型

內置n-gram(n=5)語言模型支持，可將WER進一步降低至10.9%

優化的訓練配置

採用線性學習率調度和混合精度訓練，經過13輪優化訓練

模型能力

西班牙語語音識別

即時語音轉文本

長音頻處理

使用案例

語音轉錄

西班牙語會議記錄

將西班牙語會議錄音自動轉換為文字記錄

準確率達85.4% (WER 14.6)

語音助手開發

用於開發西班牙語語音助手和對話系統

語音分析

語音內容分析

分析西班牙語語音內容進行情感分析或關鍵詞提取

🚀 Wav2Vec2-XLSR-300m-es

本模型是facebook/wav2vec2-xls-r-300m在西班牙語Common Voice數據集上的微調版本。這得益於OVHcloud為語音識別挑戰慷慨提供的GPU計算資源。該模型在評估集上取得了以下成果：

無語言模型（LM）時：

損失：0.1900
字錯率（WER）：0.146

使用5-gram語言模型時：

字錯率（WER）：0.109
字符錯誤率（CER）：0.036

🚀 快速開始

模型使用

本模型可以結合處理器中包含的n-gram（n = 5）使用，示例代碼如下：

import re
from transformers import AutoModelForCTC,Wav2Vec2ProcessorWithLM
import torch

# Loading model and processor
processor = Wav2Vec2ProcessorWithLM.from_pretrained("polodealvarado/xls-r-300m-es")
model = AutoModelForCTC.from_pretrained("polodealvarado/xls-r-300m-es")

# Cleaning characters
def remove_extra_chars(batch):
    chars_to_ignore_regex = '[^a-záéíóúñ ]'
    text = batch["translation"][target_lang]
    batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower())
    return batch
    
# Preparing dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"],return_tensors="pt",padding=True).input_values[0]    
    with processor.as_target_processor():
        batch["labels"] = processor(batch["sentence"]).input_ids
    return batch
  

common_voice_test = load_dataset("mozilla-foundation/common_voice_8_0", "es", split="test",use_auth_token=True)
common_voice_test = common_voice_test.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "segment", "up_votes"])
common_voice_test = common_voice_test.cast_column("audio", Audio(sampling_rate=16_000))        
common_voice_test = common_voice_test.map(remove_extra_chars, remove_columns=dataset.column_names)
common_voice_test = common_voice_test.map(prepare_dataset)

# Testing first sample
inputs = torch_tensor(common_voice_test[0]["input_values"])

with torch.no_grad():
    logits = model(inputs).logits

pred_ids = torch.argmax(logits, dim=-1)
text = processor.batch_decode(logits.numpy()).text
print(text) # 'bien y qué regalo vas a abrir primero'

另外，你可以執行eval.py文件進行評估：


# To use GPU: --device 0

$ python eval.py --model_id polodealvarado/xls-r-300m-es --dataset mozilla-foundation/common_voice_8_0 --config es --device 0 --split test

✨ 主要特性

本模型在語音識別任務上有良好表現，尤其在西班牙語的Common Voice數據集上進行了微調，能有效處理西班牙語語音識別任務。通過不同的評估指標（如WER、CER）可以看出模型在不同場景下的性能。

📦 安裝指南

文檔中未提及安裝相關內容，可參考transformers、torch等庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

import re
from transformers import AutoModelForCTC,Wav2Vec2ProcessorWithLM
import torch

# Loading model and processor
processor = Wav2Vec2ProcessorWithLM.from_pretrained("polodealvarado/xls-r-300m-es")
model = AutoModelForCTC.from_pretrained("polodealvarado/xls-r-300m-es")

# Cleaning characters
def remove_extra_chars(batch):
    chars_to_ignore_regex = '[^a-záéíóúñ ]'
    text = batch["translation"][target_lang]
    batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower())
    return batch
    
# Preparing dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"],return_tensors="pt",padding=True).input_values[0]    
    with processor.as_target_processor():
        batch["labels"] = processor(batch["sentence"]).input_ids
    return batch
  

common_voice_test = load_dataset("mozilla-foundation/common_voice_8_0", "es", split="test",use_auth_token=True)
common_voice_test = common_voice_test.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "segment", "up_votes"])
common_voice_test = common_voice_test.cast_column("audio", Audio(sampling_rate=16_000))        
common_voice_test = common_voice_test.map(remove_extra_chars, remove_columns=dataset.column_names)
common_voice_test = common_voice_test.map(prepare_dataset)

# Testing first sample
inputs = torch_tensor(common_voice_test[0]["input_values"])

with torch.no_grad():
    logits = model(inputs).logits

pred_ids = torch.argmax(logits, dim=-1)
text = processor.batch_decode(logits.numpy()).text
print(text) # 'bien y qué regalo vas a abrir primero'

高級用法


# To use GPU: --device 0

$ python eval.py --model_id polodealvarado/xls-r-300m-es --dataset mozilla-foundation/common_voice_8_0 --config es --device 0 --split test

📚 詳細文檔

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：4
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（WER）
3.6747	0.3	400	0.6535	0.5926
0.4439	0.6	800	0.3753	0.3193
0.3291	0.9	1200	0.3267	0.2721
0.2644	1.2	1600	0.2816	0.2311
0.24	1.5	2000	0.2647	0.2179
0.2265	1.79	2400	0.2406	0.2048
0.1994	2.09	2800	0.2357	0.1869
0.1613	2.39	3200	0.2242	0.1821
0.1546	2.69	3600	0.2123	0.1707
0.1441	2.99	4000	0.2067	0.1619
0.1138	3.29	4400	0.2044	0.1519
0.1072	3.59	4800	0.1917	0.1457
0.0992	3.89	5200	0.1900	0.1438