wav2vec2-large-960hオープンソース音声認識モデル - 無料でデプロイして高精度な音声文字起こしを実現

ホーム

Wav2vec2 Large 960h

facebookによって開発

Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #音声からテキストへ #高精度音声認識 #低リソース音声処理

ダウンロード数 77.59k

リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzでサンプリングされた音声オーディオに基づいており、LibriSpeechの960時間のデータで事前学習と微調整が行われており、英語音声認識タスクに適しています。

モデル特徴

自己教師あり学習

生の音声から音声表現を学習することで、大量の注釈データへの依存を減らします。

高精度転写

LibriSpeechテストセットで2.8/6.3の単語誤り率（WER）を達成。

低リソース適応

限られた注釈データ下でも高性能を実現し、リソースが制限されたシナリオに適しています。

モデル能力

英語音声認識

オーディオ転写

音声処理

使用事例

音声転写

会議議事録

会議の録音を自動的にテキストに転写し、アーカイブや検索を容易にします。

高精度転写、単語誤り率は2.8まで低減。

音声アシスタント

音声アシスタントの音声認識モジュールとして使用され、インタラクション体験を向上させます。

リアルタイム音声認識をサポートし、応答速度が速い。

教育

言語学習

言語学習者が発音とリスニングを練習するのを助け、即時のフィードバックを提供します。

発音の誤りを高精度で認識し、学習効率を向上させます。

🚀 Wav2Vec2-Large-960h

FacebookのWav2Vec2

この大規模モデルは、16kHzでサンプリングされた音声オーディオに対して、960時間のLibrispeechデータセットで事前学習および微調整されています。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

論文

著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

本研究では、音声オーディオのみから強力な表現を学習し、その後転写された音声データで微調整することで、概念的により単純でありながら、最良の半教師あり学習手法を上回る性能を達成できることを初めて示しました。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に基づいて定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットでそれぞれ1.8/3.3のWER（Word Error Rate）を達成しています。ラベル付きデータの量を1時間に減らした場合、wav2vec 2.0は100時間のサブセットで従来の最先端手法を上回り、ラベル付きデータの使用量は100分の1に抑えられています。たった10分のラベル付きデータと53,000時間のラベルなしデータでの事前学習でも、4.8/8.2のWERを達成しています。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。

🚀 クイックスタート

このモデルは、音声ファイルを文字起こしするために、以下のように独立した音響モデルとして使用することができます。

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、facebook/wav2vec2-large-960hをLibriSpeechの「clean」および「other」のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import soundfile as sf
import torch
from jiwer import wer


librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h")

def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))