wav2vec2-large-xlsr-53-frenchオープンソース音声認識モデル - 無料でデプロイし、フランス語の音声を正確に認識

ホーム

Wav2vec2 Large Xlsr 53 French

Ilyesによって開発

これはwav2vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、フランス語に特化して微調整され、Common Voiceフランス語テストセットで12.82%の単語誤り率(WER)を達成しました。

音声認識

Transformers

フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #低い単語誤り率 #XLSR微調整

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

このモデルはフランス語音声認識モデルで、Facebookのwav2vec2-large-xlsr-53アーキテクチャに基づいて微調整され、フランス語の音声をテキストに変換することができます。

モデル特徴

高性能のフランス語認識

Common Voiceフランス語テストセットで12.82%の単語誤り率(WER)と4.40%の文字誤り率(CER)を達成しました。

XLSR事前学習モデルに基づく

言語横断的な音声表現(XLSR)事前学習モデルを利用して微調整され、強力な音声特徴抽出能力を持っています。

統合が容易

Hugging Face Transformers互換のインターフェースを提供し、様々なアプリケーションでの統合使用を容易にします。

モデル能力

フランス語音声認識

音声をテキストに変換

自動音声文字起こし

使用事例

音声文字起こし

フランス語音声を文字に変換

フランス語の音声内容を自動的に文字に変換します。

12.82% WER

音声アシスタント

フランス語音声コマンド認識

フランス語音声アシスタントのコマンド認識システムに使用されます。

🚀 wav2vec2-large-xlsr-53-French by Ilyes Rebai

このモデルは、自動音声認識タスクに特化した音声モデルです。Common Voiceのフランス語データセットを使用して微調整されています。

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用されます。訓練と評価に使用されるスクリプトはこちらで見つけることができます: https://github.com/irebai/wav2vec2

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import re

model_name = "Ilyes/wav2vec2-large-xlsr-53-french"

device = "cpu" # "cuda"

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "fr", split="test", cache_dir="./data/fr")

chars_to_ignore_regex = '[\,\?\.\!\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\!\ǃ\?\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\.\,\;\:\*\—\–\─\―\_\/\:\ː\;\,\=\«\»\→]'
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
resampler = torchaudio.transforms.Resample(48_000, 16_000)
    
ds = ds.map(map_to_array)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
    
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

📚 ドキュメント

評価結果

属性	详情
モデル名	wav2vec2-large-xlsr-53-French by Ilyes Rebai
タスク	音声認識 (自動音声認識)
データセット	Common Voice fr
テストWER	12.82%
テストCER	4.40%