asr-wav2vec2-ctc-french オープンソースのフランス語音声認識モデル - 2200時間を超えるデータでトレーニング！

ホーム

Asr Wav2vec2 Ctc French

bofenghuangによって開発

これはwav2vec2-FR-7K-largeモデルを基にファインチューニングされたフランス語自動音声認識(ASR)モデルで、2200時間以上のフランス語音声データでトレーニングされています。

音声認識

Transformers

フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #多方言ロバスト性 #Wav2Vec2大規模モデル

ダウンロード数 520

リリース時間 : 11/25/2022

モデル概要

このモデルはフランス語音声認識タスク専用で、16kHzサンプリングレートの音声入力をサポートし、複数のフランス語音声データセットで優れた性能を発揮します。

モデル特徴

複数データセットでのトレーニング

モデルはCommon Voice 11.0、多言語LibriSpeech、Voxpopuliなどの複数のフランス語音声データセットでトレーニングされており、様々な音声シナリオをカバーしています。

言語モデルサポート

モデルは言語モデルと組み合わせて使用でき、単語誤り率(WER)を大幅に低減できます。

アフリカ訛り対応

モデルはアフリカ訛りのフランス語データでトレーニングされており、アフリカ訛りのフランス語を認識できます。

モデル能力

フランス語音声認識

16kHzサンプリングレート音声処理対応

言語モデル統合サポート

多様な音声認識シナリオ対応

使用事例

音声文字起こし

フランス語音声からテキストへ

フランス語音声内容をテキストに変換

Common Voice 11.0テストセットでWERは11.44(言語モデルなし)と9.66(言語モデルあり)

音声分析

アフリカ訛りフランス語認識

アフリカ訛りのフランス語音声を認識

アフリカ訛りフランス語テストセットでWERは16.22(言語モデルなし)と15.39(言語モデルあり)

🚀 フランス語用自動音声認識のために微調整されたwav2vec2 - FR - 7K - largeモデル

このモデルは、2200時間以上のフランス語の音声オーディオからなる複合データセットを使用して、[Common Voice 11.0](https://huggingface.co/datasets/mozilla - foundation/common_voice_11_0)、Multilingual LibriSpeech、Voxpopuli、Multilingual TEDx、MediaSpeech、およびAfrican Accented Frenchのトレーニングと検証用のデータ分割を用いて、[LeBenchmark/wav2vec2 - FR - 7K - large](https://huggingface.co/LeBenchmark/wav2vec2 - FR - 7K - large)を微調整したバージョンです。モデルを使用する際には、音声入力が16Khzでサンプリングされていることを確認してください。

🚀 クイックスタート

このセクションでは、このモデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

言語モデルを使用してローカルのオーディオファイルを処理する場合

import torch
import torchaudio

from transformers import AutoModelForCTC, Wav2Vec2ProcessorWithLM

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

model = AutoModelForCTC.from_pretrained("bhuang/asr-wav2vec2-french").to(device)
processor_with_lm = Wav2Vec2ProcessorWithLM.from_pretrained("bhuang/asr-wav2vec2-french")
model_sample_rate = processor_with_lm.feature_extractor.sampling_rate

wav_path = "example.wav"  # path to your audio file
waveform, sample_rate = torchaudio.load(wav_path)
waveform = waveform.squeeze(axis=0)  # mono

# resample
if sample_rate != model_sample_rate:
    resampler = torchaudio.transforms.Resample(sample_rate, model_sample_rate)
    waveform = resampler(waveform)

# normalize
input_dict = processor_with_lm(waveform, sampling_rate=model_sample_rate, return_tensors="pt")

with torch.inference_mode():
    logits = model(input_dict.input_values.to(device)).logits

predicted_sentence = processor_with_lm.batch_decode(logits.cpu().numpy()).text[0]

言語モデルを使用せずにローカルのオーディオファイルを処理する場合

import torch
import torchaudio

from transformers import AutoModelForCTC, Wav2Vec2Processor

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

model = AutoModelForCTC.from_pretrained("bhuang/asr-wav2vec2-french").to(device)
processor = Wav2Vec2Processor.from_pretrained("bhuang/asr-wav2vec2-french")
model_sample_rate = processor.feature_extractor.sampling_rate

wav_path = "example.wav"  # path to your audio file
waveform, sample_rate = torchaudio.load(wav_path)
waveform = waveform.squeeze(axis=0)  # mono

# resample
if sample_rate != model_sample_rate:
    resampler = torchaudio.transforms.Resample(sample_rate, model_sample_rate)
    waveform = resampler(waveform)

# normalize
input_dict = processor(waveform, sampling_rate=model_sample_rate, return_tensors="pt")

with torch.inference_mode():
    logits = model(input_dict.input_values.to(device)).logits

# decode
predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentence = processor.batch_decode(predicted_ids)[0]

📚 ドキュメント

評価方法

`mozilla - foundation/common_voice_11_0`で評価する場合

python eval.py \
  --model_id "bhuang/asr-wav2vec2-french" \
  --dataset "mozilla-foundation/common_voice_11_0" \
  --config "fr" \
  --split "test" \
  --log_outputs \
  --outdir "outputs/results_mozilla-foundatio_common_voice_11_0_with_lm"

`speech - recognition - community - v2/dev_data`で評価する場合

python eval.py \
  --model_id "bhuang/asr-wav2vec2-french" \
  --dataset "speech-recognition-community-v2/dev_data" \
  --config "fr" \
  --split "validation" \
  --chunk_length_s 30.0 \
  --stride_length_s 5.0 \
  --log_outputs \
  --outdir "outputs/results_speech-recognition-community-v2_dev_data_with_lm"