wav2vec2-large-xlsr-53-frenchオープンソースモデル - 高い精度のフランス語の音声をテキストに変換するサポート

ホーム

Wav2vec2 Large Xlsr 53 French

jonatasgrosmanによって開発

これはXLSR - 53大規模モデルを微調整したフランス語音声認識モデルで、Common Voiceデータセットで訓練され、高い精度でフランス語の音声をテキストに変換できます。

音声認識フランス語オープンソースライセンス:Apache-2.0 #フランス語音声認識 #低い単語誤り率 #XLSR - 53の微調整

ダウンロード数 47.83k

リリース時間 : 3/2/2022

モデル概要

このモデルはフランス語に最適化された自動音声認識(ASR)システムで、Facebookのwav2vec2 - large - xlsr - 53アーキテクチャを微調整しており、フランス語の音声をテキストに変換できます。

モデル特徴

高精度なフランス語認識

Common Voiceフランス語テストセットで17.65%の単語誤り率(WER)と4.89%の文字誤り率(CER)を達成しました。

言語モデルによる強化をサポート

言語モデルを組み合わせると、WERを13.59%、CERを3.91%に下げることができ、認識精度が大幅に向上します。

16kHzサンプリングレートのサポート

16kHzサンプリングレートの音声入力に最適化されており、ほとんどの音声アプリケーションシナリオに適しています。

オープンソースライセンス

Apache - 2.0ライセンスを採用しており、商用および研究用途が許可されています。

モデル能力

フランス語音声認識

リアルタイム音声テキスト変換

バッチオーディオ処理

使用事例

音声文字起こし

フランス語音声を文字に変換

フランス語の音声内容を編集可能なテキスト形式に変換します。

標準テストセットで83%以上の精度を達成しました。

音声アシスタント

フランス語音声指令認識

フランス語の音声アシスタントまたは制御システムの音声指令認識に使用されます。

🚀 XLSR Wav2Vec2 フランス語版による音声認識モデル

このモデルは、フランス語の音声認識に特化して微調整されたものです。facebook/wav2vec2-large-xlsr-53 を Common Voice 6.1 のトレーニングデータと検証データを使って微調整しています。このモデルを使用する際には、音声入力が 16kHz でサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、Common Voice 6.1 のトレーニングデータと検証データを使用して、facebook/wav2vec2-large-xlsr-53 をフランス語用に微調整したものです。モデルを使用する際には、音声入力が 16kHz でサンプリングされていることを確認してください。

このモデルの微調整には、OVHcloud から提供された GPU クレジットを利用しています。

トレーニングに使用されたスクリプトは、こちらで確認できます。

✨ 主な機能

フランス語の音声を高精度に認識します。
言語モデルを使用しない場合でも、直接音声認識に利用できます。

📦 インストール

インストールに関する具体的な手順は、原ドキュメントに記載されていません。

💻 使用例

基本的な使用法

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-french")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fr"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-french"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("参照:", test_dataset[i]["sentence"])
    print("予測:", predicted_sentence)

参照	予測
"CE DERNIER A ÉVOLUÉ TOUT AU LONG DE L'HISTOIRE ROMAINE."	CE DERNIER ÉVOLUÉ TOUT AU LONG DE L'HISTOIRE ROMAINE
CE SITE CONTIENT QUATRE TOMBEAUX DE LA DYNASTIE ACHÉMÉNIDE ET SEPT DES SASSANIDES.	CE SITE CONTIENT QUATRE TOMBEAUX DE LA DYNASTIE ASHEMÉNID ET SEPT DES SASANDNIDES
"J'AI DIT QUE LES ACTEURS DE BOIS AVAIENT, SELON MOI, BEAUCOUP D'AVANTAGES SUR LES AUTRES."	JAI DIT QUE LES ACTEURS DE BOIS AVAIENT SELON MOI BEAUCOUP DAVANTAGES SUR LES AUTRES
LES PAYS-BAS ONT REMPORTÉ TOUTES LES ÉDITIONS.	LE PAYS-BAS ON REMPORTÉ TOUTES LES ÉDITIONS
IL Y A MAINTENANT UNE GARE ROUTIÈRE.	IL AMNARDIGAD LE TIRAN
HUIT	HUIT
DANS L’ATTENTE DU LENDEMAIN, ILS NE POUVAIENT SE DÉFENDRE D’UNE VIVE ÉMOTION	DANS L'ATTENTE DU LENDEMAIN IL NE POUVAIT SE DÉFENDRE DUNE VIVE ÉMOTION
LA PREMIÈRE SAISON EST COMPOSÉE DE DOUZE ÉPISODES.	LA PREMIÈRE SAISON EST COMPOSÉE DE DOUZE ÉPISODES
ELLE SE TROUVE ÉGALEMENT DANS LES ÎLES BRITANNIQUES.	ELLE SE TROUVE ÉGALEMENT DANS LES ÎLES BRITANNIQUES
ZÉRO	ZEGO

📚 ドキュメント

評価

mozilla-foundation/common_voice_6_0 の test スプリットで評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-french --dataset mozilla-foundation/common_voice_6_0 --config fr --split test

speech-recognition-community-v2/dev_data で評価する場合

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-french --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

🔧 技術詳細

原ドキュメントに技術的な詳細は記載されていません。

📄 ライセンス

このモデルは、Apache 2.0 ライセンスの下で提供されています。

引用

このモデルを引用する場合は、以下のようにしてください。

@misc{grosman2021xlsr53-large-french,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {F}rench},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-french}},
  year={2021}
}

モデル情報

属性	詳情
モデルタイプ	微調整された XLSR-53 大規模モデル
トレーニングデータ	Common Voice 6.1 のフランス語データ
評価指標	WER (Word Error Rate), CER (Character Error Rate)