wav2vec2-large-xlsr-53-englishオープンソースの英語音声認識モデル

ホーム

Wav2vec2 Large Xlsr 53 English

jonatasgrosmanによって開発

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整された英語音声認識モデルで、Common Voice 6.1データセットで訓練されました。

音声認識英語オープンソースライセンス:Apache-2.0 #英語音声認識 #XLSR微調整 #低い単語誤り率

ダウンロード数 251.78k

リリース時間 : 3/2/2022

モデル概要

これは英語音声認識タスクに対して微調整されたXLSR - 53大規模モデルで、英語の音声をテキストに変換することができます。

モデル特徴

高性能の英語音声認識

Common Voiceテストセットで19.06%の単語誤り率と7.69%の文字誤り率を達成しました。

言語モデルによる強化をサポート

言語モデルを組み合わせると、単語誤り率を14.81%、文字誤り率を6.84%に下げることができます。

16kHzサンプリングレートのサポート

16kHzサンプリングレートの音声入力に最適化されています。

XLSR - 53事前学習モデルをベース

大規模なクロス言語音声表現学習(XLSR)の事前学習の利点を生かしています。

モデル能力

英語音声認識

音声をテキストに変換

長いオーディオの処理をサポート(チャンク分割による)

使用事例

音声文字起こし

会議録の自動文字起こし

英語の会議録音を自動的に文字起こしします。

精度約80.94%(WERに基づく)

音声メモの変換

個人の音声メモを検索可能なテキストに変換します。

支援技術

リアルタイム字幕生成

英語のビデオまたはライブ配信にリアルタイム字幕を生成します。

🚀 英語音声認識のために微調整されたXLSR - 53大規模モデル

このモデルは、Common Voice 6.1 のトレーニングデータと検証データを使用して、英語に対して facebook/wav2vec2-large-xlsr-53 を微調整したものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルの微調整には、OVHcloud から提供されたGPUクレジットを利用しています。

トレーニングに使用されたスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、言語モデルを使用せずに直接利用することができます。

✨ 主な機能

英語の音声認識に特化した微調整済みモデルです。
複数のデータセットで評価され、WER（Word Error Rate）やCER（Character Error Rate）などの指標で性能が測定されています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。例えば、transformers、datasets、librosa、torch などです。具体的なインストール方法は各ライブラリの公式ドキュメントを参照してください。

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用する場合:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

参照文	予測文
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 ドキュメント

評価方法

mozilla-foundation/common_voice_6_0 の test スプリットで評価する場合:

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

speech-recognition-community-v2/dev_data で評価する場合:

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 ライセンス

このモデルは apache - 2.0 ライセンスの下で提供されています。

引用

このモデルを引用する場合は、以下のBibTeXを使用してください。

@misc{grosman2021xlsr53-large-english,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}

情報テーブル

属性	詳情
モデルタイプ	微調整済みのXLSR - 53大規模音声認識モデル
トレーニングデータ	Common Voice 6.1の英語データ
評価指標	WER（Word Error Rate）、CER（Character Error Rate）