speech - textオープンソース自動音声認識モデル - 無料でデプロイ可能、英語の音声から文章への変換をサポート

ホーム

Speech Text

abidlabsによって開発

facebook/wav2vec2-large-xlsr-53を英語の汎用音声データセットでファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの英語音声入力をサポートしています。

音声認識英語オープンソースライセンス:Apache-2.0 #英語音声認識 #低単語誤り率 #XLSRファインチューニング

ダウンロード数 25

リリース時間 : 3/7/2022

モデル概要

これは英語の自動音声認識(ASR)用のモデルで、XLSR-53アーキテクチャをファインチューニングしており、英語の音声をテキストに変換できます。

モデル特徴

高性能英語音声認識

汎用音声英語テストセットで19.06%の単語誤り率(WER)と7.69%の文字誤り率(CER)を達成

言語モデル拡張サポート

言語モデルと組み合わせると、単語誤り率は14.81%、文字誤り率は6.84%まで低下可能

16kHzサンプリングレートサポート

16kHzサンプリングレートの音声入力に最適化

モデル能力

英語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

会議議事録の転写

英語の会議録音を自動的に文字記録に変換

約80-85%の精度(WER 14.81-19.06%)

ポッドキャストコンテンツの転写

英語ポッドキャストの原稿を自動生成

音声インターフェース

音声アシスタント

英語音声アシスタントに音声認識機能を提供

🚀 Wav2Vec2-Large-XLSR-53-English

このモデルは、Common Voice を使用して英語で微調整された facebook/wav2vec2-large-xlsr-53 です。このモデルを使用する際には、音声入力が 16kHz でサンプリングされていることを確認してください。

このモデルは、OVHcloud から提供されたGPUクレジットのおかげで微調整されました :)

トレーニングに使用されたスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、英語の自動音声認識タスクに使用できます。音声入力を16kHzでサンプリングする必要があります。

✨ 主な機能

英語の自動音声認識に最適化されたモデル
言語モデルを使用せずに直接使用可能
トレーニング用のスクリプトが公開されている

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets librosa torch

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用する場合:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("参照:", test_dataset[i]["sentence"])
    print("予測:", predicted_sentence)

予測結果の例

参照	予測
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 ドキュメント

評価

mozilla-foundation/common_voice_6_0 の test スプリットで評価する場合:

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

speech-recognition-community-v2/dev_data で評価する場合:

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

引用

このモデルを引用する場合は、以下のBibTeXを使用できます。

@misc{grosman2021wav2vec2-large-xlsr-53-english,
  title={XLSR Wav2Vec2 English by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}