wav2vec2-large-xlsr-open-brazilian-portuguese開源模型 - 精準處理巴西葡萄牙語語音

首頁

Wav2vec2 Large Xlsr Open Brazilian Portuguese

由lgris開發

這是一個針對巴西葡萄牙語微調的 Wav2vec 2.0 模型，使用了多個開放巴西葡萄牙語數據集進行訓練，包括 Common Voice、MLS、CETUC 等。

語音識別

Transformers

其他開源協議:Apache-2.0 #巴西葡語語音識別 #多數據集訓練 #低WER

下載量 395

發布時間 : 3/2/2022

模型概述

該模型是一個自動語音識別(ASR)模型，專門針對巴西葡萄牙語進行了優化，能夠將葡萄牙語語音轉換為文本。

模型特點

多數據集訓練

結合了多個巴西葡萄牙語數據集（CETUC、MLS、VoxForge、Common Voice 和 Lapsbm）進行訓練，提高了模型的泛化能力。

高性能

在 Common Voice 測試集上取得了 12.9% 的詞錯誤率(WER)，表現出色。

開放數據

完全基於開放數據集訓練，確保了模型的透明性和可重複性。

模型能力

巴西葡萄牙語語音識別

長音頻處理

多種口音適應

使用案例

語音轉文字

語音轉錄

將巴西葡萄牙語語音內容轉換為文字記錄

在標準測試集上達到12.9%的詞錯誤率

輔助技術

語音控制應用

為巴西葡萄牙語用戶提供語音控制界面

🚀 基於巴西葡萄牙語開放數據集的Wav2vec 2.0模型

本項目展示了一個針對巴西葡萄牙語進行微調的Wav2vec模型，使用了以下數據集：

CETUC：包含約145小時的巴西葡萄牙語語音，分佈在50名男性和50名女性說話者中，每人朗讀約1000個從CETEN - Folha語料庫中選出的語音平衡句子。
多語言Librispeech (MLS)：一個多語言的大規模數據集。MLS基於LibriVox等公共領域的有聲讀物錄音。該數據集包含多種語言的總計6000小時轉錄數據。本項目使用的葡萄牙語數據集（主要是巴西變體）約有284小時的語音，來自62位朗讀者朗讀的55本有聲讀物。
VoxForge：一個旨在為聲學模型構建開放數據集的項目。該語料庫包含約100名說話者和4130條巴西葡萄牙語語音，採樣率從16kHz到44.1kHz不等。
Common Voice 6.1（僅用於訓練）：由Mozilla基金會發起的項目，旨在創建多種語言的開放數據集以訓練自動語音識別模型。志願者通過官方網站捐贈和驗證語音數據。本項目使用的葡萄牙語數據集（主要是巴西變體）為6.1版本（pt_63h_2020 - 12 - 11），包含約50小時的驗證數據和1120名獨特的說話者。
[Lapsbm](https://github.com/falabrasil/gitlab - resources)：“Falabrasil - UFPA”是Fala Brasil團隊用於評估巴西葡萄牙語自動語音識別系統的數據集。包含35名說話者（10名女性），每人朗讀20條獨特的句子，總計700條巴西葡萄牙語語音。音頻以22.05kHz採樣，未進行環境控制。

這些數據集被合併以構建一個更大的巴西葡萄牙語數據集。除了Common Voice的開發集和測試集分別用於驗證和測試外，所有數據都用於訓練。

原始模型使用fairseq進行微調。本項目使用的是原始模型的轉換版本。原始fairseq模型的鏈接[在此](https://drive.google.com/drive/folders/1XTKIUB4kp3oYOavwH97wq8IPFsxP5sNz?usp = sharing)。

該模型經過80000次更新訓練。

✨ 主要特性

數據集實例和幀數分佈

下圖展示了數據集的整體分佈情況：

datasets

轉錄示例

原文	轉錄結果
É comum os usuários confundirem software livre com software livre	É comum os usuares confunder em softwerlivr com softwerlivre
Ele fez tanto ghostwriting que ele começa a se sentir como um fantasma também	Ele fez tanto golstraitn que ele começou a se sentir como um fantasma também
Arnold apresentou um gráfico mostrando quantas cegonhas ele havia contado nos últimos dez anos	Arnold apresentou um gráfico mostrando quantas segonhas ele havia contado nos últimos dez anos
Mais cedo ou mais tarde eles descobrirão como ler esses hieróglifos	Mais sedo ou mais tarde eles descobriram como de esses ierogrôficos
Viver juntos compartilhar objetivos e ter um bom relacionamento	E ver juntos signafica viver juntos ou fartlhar objetivos ter um bom relacionamentoo
Da mesma forma uma patente pode impedir que concorrentes desenvolvam produtos similares	Da mesma forma uma patente pode impedir que concorrentes desenvolva produtos similares
Duas mulheres e uma menina levantam com troféus	Duas mulheres e uma menina levantam com trofés
Esse acrobata de circo deve ter um sistema vestibular bem treinado pensou o espectador	Esse acrobata de cirko deve ter um sistema vestibular bemtreinado pensou o espectador
Durante a exposição o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere apropriados	Durante a exposição o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere apropriado

📦 安裝指南

導入依賴庫

%%capture
!pip install datasets
!pip install jiwer
!pip install torchaudio
!pip install transformers
!pip install soundfile

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

💻 使用示例

基礎用法

chars_to_ignore_regex = '[\,\?\.\!\;\:\"]'  # noqa: W605
wer = load_metric("wer")
device = "cuda"

model_name = 'lgris/wav2vec2-large-xlsr-open-brazilian-portuguese'
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["predicted"] = [pred.lower() for pred in batch["predicted"]]
    batch["target"] = batch["sentence"]
    return batch

測試

針對Common Voice（域內）的測試

dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))
for pred, target in zip(result["predicted"][:10], result["target"][:10]):
    print(pred, "|", target)

結果：12.90%

針對TEDx（域外）的測試

!gdown --id 1HJEnvthaGYwcV_whHEywgH2daIN4bQna
!tar -xf tedx.tar.gz

dataset = load_dataset('csv', data_files={'test': 'tedx/test.csv'})['test']

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = speech.squeeze(0).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))
for pred, target in zip(result["predicted"][:10], result["target"][:10]):
    print(pred, "|", target)

結果：35.21%

📄 許可證

本項目採用Apache 2.0許可證。

信息表格

屬性	詳情
模型類型	Lucas Gris XLSR Wav2Vec2 Large 53巴西葡萄牙語模型
訓練數據	CETUC、Multilingual Librispeech (MLS)、VoxForge、Common Voice 6.1、Lapsbm
評估指標	詞錯誤率（WER）
任務類型	自動語音識別
測試WER	12.905054857823264%