wav2vec2-large-xlsr-open-brazilian-portugueseオープンソースモデル - ブラジルポルトガル語の音声を高精度に処理

ホーム

Wav2vec2 Large Xlsr Open Brazilian Portuguese

lgrisによって開発

これはブラジルポルトガル語に対して微調整されたWav2vec 2.0モデルで、Common Voice、MLS、CETUCなどの複数のオープンブラジルポルトガル語データセットを使用して訓練されています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブラジルポルトガル語音声認識 #複数データセットによる訓練 #低WER

ダウンロード数 395

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識（ASR）モデルで、ブラジルポルトガル語に特化して最適化されており、ポルトガル語の音声をテキストに変換することができます。

モデル特徴

複数データセットによる訓練

複数のブラジルポルトガル語データセット（CETUC、MLS、VoxForge、Common Voice、Lapsbm）を組み合わせて訓練することで、モデルの汎化能力を向上させました。

高性能

Common Voiceテストセットで12.9％の単語誤り率（WER）を達成し、優れた性能を発揮しました。

オープンデータ

完全にオープンデータセットを基に訓練されているため、モデルの透明性と再現性が保証されています。

モデル能力

ブラジルポルトガル語音声認識

長時間音声処理

複数のアクセントへの適応

使用事例

音声からテキストへの変換

音声文字起こし

ブラジルポルトガル語の音声内容を文字記録に変換する

標準テストセットで12.9％の単語誤り率を達成

支援技術

音声制御アプリケーション

ブラジルポルトガル語のユーザーに音声制御インターフェースを提供する

🚀 Wav2vec 2.0 With Open Brazilian Portuguese Datasets

このプロジェクトは、次のデータセットを使用してブラジルポルトガル語用にファインチューニングされたWav2vecモデルのデモンストレーションです。

🚀 クイックスタート

モデルの概要

このモデルは、ブラジルポルトガル語の音声認識に特化しており、複数の公開データセットを組み合わせて訓練されています。

データセット

CETUC：約145時間のブラジルポルトガル語の音声データが含まれ、50人の男性と50人の女性の話者がそれぞれ約1,000文の音声を提供しています。
Multilingual Librispeech (MLS)：多言語の大規模データセットで、ブラジルポルトガル語のデータは約284時間あります。
VoxForge：音響モデル用のオープンデータセットを構築するためのプロジェクトで、約100人の話者と4,130の発話が含まれています。
Common Voice 6.1（訓練データのみ）：Mozilla Foundationが提案したプロジェクトで、ASRモデルを訓練するための多言語のオープンデータセットを作成することを目的としています。
Lapsbm：Fala Brasilグループがブラジルポルトガル語のASRシステムのベンチマークに使用するデータセットで、35人の話者の700の発話が含まれています。

モデルの訓練

元のモデルはfairseqを使用してファインチューニングされました。このノートブックでは、元のモデルの変換バージョンを使用しています。元のfairseqモデルへのリンクはこちらから取得できます。

データセットの分布

次の画像は、データセットの全体的な分布を示しています。

datasets

転写例

原文	転写結果
É comum os usuários confundirem software livre com software livre	É comum os usuares confunder em softwerlivr com softwerlivre
Ele fez tanto ghostwriting que ele começa a se sentir como um fantasma também	Ele fez tanto golstraitn que ele começou a se sentir como um fantasma também
Arnold apresentou um gráfico mostrando quantas cegonhas ele havia contado nos últimos dez anos	Arnold apresentou um gráfico mostrando quantas segonhas ele havia contado nos últimos dez anos
Mais cedo ou mais tarde eles descobrirão como ler esses hieróglifos	Mais sedo ou mais tarde eles descobriram como de esses ierogrôficos
Viver juntos compartilhar objetivos e ter um bom relacionamento	E ver juntos signafica viver juntos ou fartlhar objetivos ter um bom relacionamentoo
Da mesma forma uma patente pode impedir que concorrentes desenvolvam produtos similares	Da mesma forma uma patente pode impedir que concorrentes desenvolva produtos similares
Duas mulheres e uma menina levantam com troféus	Duas mulheres e uma menina levantam com trofés
Esse acrobata de circo deve ter um sistema vestibular bem treinado pensou o espectador	Esse acrobata de cirko deve ter um sistema vestibular bemtreinado pensou o espectador
Durante a exposição o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere apropriados	Durante a exposição o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere apropriado

💻 使用例

基本的な使用法

%%capture
!pip install datasets
!pip install jiwer
!pip install torchaudio
!pip install transformers
!pip install soundfile

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

高度な使用法

chars_to_ignore_regex = '[\,\?\.\!\;\:\"]'  # noqa: W605
wer = load_metric("wer")
device = "cuda"

model_name = 'lgris/wav2vec2-large-xlsr-open-brazilian-portuguese'
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["predicted"] = [pred.lower() for pred in batch["predicted"]]
    batch["target"] = batch["sentence"]
    return batch

テスト

Common Voiceに対するテスト（ドメイン内）

dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))
for pred, target in zip(result["predicted"][:10], result["target"][:10]):
    print(pred, "|", target)

結果: 12.90%

TEDxに対するテスト（ドメイン外）

!gdown --id 1HJEnvthaGYwcV_whHEywgH2daIN4bQna
!tar -xf tedx.tar.gz

dataset = load_dataset('csv', data_files={'test': 'tedx/test.csv'})['test']

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = speech.squeeze(0).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))
for pred, target in zip(result["predicted"][:10], result["target"][:10]):
    print(pred, "|", target)