wav2vec2-xls-r-1b-englishオープンソース英語音声認識モデル - 無料で高精度な音声を文字に変換を実現

ホーム

Wav2vec2 Xls R 1b English

jonatasgrosmanによって開発

これはXLS - R 1Bアーキテクチャに基づく英語音声認識モデルで、複数の英語音声データセットで微調整されています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #英語音声認識 #高精度WER #複数データセットによる訓練

ダウンロード数 1,896

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識タスクに最適化されており、英語の音声をテキストに変換することができます。

モデル特徴

複数データセットによる訓練

Common Voice 8.0、Multilingual LibriSpeech、TED - LIUMv3、Voxpopuliなどの複数のデータセットを使用して訓練されています。

高性能

Common Voice 8テストセットで21.05%のWERと8.44%のCERを達成しました。

言語モデルサポート

言語モデル(LM)と組み合わせて使用することができ、認識精度をさらに向上させます。

モデル能力

英語音声認識

リアルタイム音声テキスト変換

16kHzサンプリングレートの音声処理サポート

使用事例

音声文字起こし

会議記録

英語の会議録音を自動的に文字記録に変換します。

精度約80% (WER 20%)

ポッドキャスト文字起こし

英語のポッドキャスト内容を文字起こしに変換します。

支援技術

音声入力システム

障害者に音声入力ソリューションを提供します。

🚀 英語音声認識用に微調整されたXLS - R 1Bモデル

このモデルは、英語の音声認識を目的として、[facebook/wav2vec2 - xls - r - 1b](https://huggingface.co/facebook/wav2vec2 - xls - r - 1b) を、[Common Voice 8.0](https://huggingface.co/datasets/mozilla - foundation/common_voice_8_0)、Multilingual LibriSpeech、TED - LIUMv3、および Voxpopuli のトレーニングと検証データセットを使用して微調整したものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルは、HuggingSound ツールを使用して微調整されており、[OVHcloud](https://www.ovhcloud.com/en/public - cloud/ai - training/) から提供されたGPUクレジットに感謝いたします。

🚀 クイックスタート

このモデルは英語の音声認識に使用できます。使用する際には、音声入力が16kHzでサンプリングされている必要があります。

✨ 主な機能

英語の音声を高精度に認識します。
複数のデータセットを使用して微調整されているため、汎用性が高いです。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets librosa torch

💻 使用例

基本的な使用法

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-xls-r-1b-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-xls-r-1b-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

📚 ドキュメント

評価コマンド

mozilla - foundation/common_voice_8_0 の test スプリットで評価するには

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-english --dataset mozilla-foundation/common_voice_8_0 --config en --split test

speech - recognition - community - v2/dev_data で評価するには

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

引用

このモデルを引用する場合は、以下のBibTeXを使用できます。

@misc{grosman2021xlsr-1b-english,
  title={Fine-tuned {XLS-R} 1{B} model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-english}},
  year={2022}
}

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

📊 モデル情報

属性	详情
モデルタイプ	英語音声認識用に微調整されたXLS - R 1Bモデル
トレーニングデータ	Common Voice 8.0、Multilingual LibriSpeech、TED - LIUMv3、Voxpopuli