wav2vec2-large-960h-lv60オープンソース音声認識モデル - 限られたラベルデータでの効率的なオーディオ認識

Wav2vec2 Large 960h Lv60

facebookによって開発

Wav2Vec2は強力な音声認識モデルで、自己教師あり学習により生の音声から特徴を抽出し、限られたラベル付きデータで高性能な音声認識を実現します。

音声認識英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #低リソースファインチューニング #英語音声処理

ダウンロード数 7,011

リリース時間 : 3/2/2022

モデル概要

このモデルは960時間のLibri-LightおよびLibrispeech音声データで事前トレーニングとファインチューニングが行われており、英語の自動音声認識タスクに特化しており、16kHzサンプリングレートの音声入力をサポートしています。

モデル特徴

自己教師あり学習

生の音声から表現を学習することで、大量のラベル付きデータへの依存を軽減します。

高性能

Librispeechのクリーンテストセットで2.2%のWERを達成し、優れた性能を発揮します。

データ効率

少量のラベル付きデータで高性能なモデルをファインチューニング可能で、リソースが限られた環境に適しています。

モデル能力

英語音声認識

16kHz音声処理

高精度文字起こし

使用事例

音声文字起こし

会議議事録

会議の録音を自動的に文字起こし

高精度の文字起こしテキスト

字幕生成

動画コンテンツに英語字幕を生成

迅速かつ正確な自動字幕

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識・理解

高精度のコマンド認識

🚀 Wav2Vec2-Large-960h-Lv60

このモデルは、音声認識タスクに特化した事前学習済みモデルで、大量の音声データを用いて学習され、高精度な音声認識が可能です。

🚀 クイックスタート

FacebookのWav2Vec2

この大規模モデルは、16kHzでサンプリングされた960時間のLibri - LightとLibrispeechの音声オーディオで事前学習および微調整されています。モデルを使用する際には、音声入力も16kHzでサンプリングされていることを確認してください。

論文

著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

我々は初めて、音声オーディオのみから強力な表現を学習し、その後に文字起こしされた音声で微調整することで、概念的により単純でありながら、最良の半教師付き手法を上回ることができることを示しました。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に基づいて定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットで1.8/3.3のWERを達成しました。ラベル付きデータの量を1時間に減らすと、wav2vec 2.0は100時間のサブセットで以前の最先端技術を上回り、ラベル付きデータを100分の1しか使用しません。たった10分のラベル付きデータと53k時間のラベルなしデータでの事前学習でも、4.8/8.2のWERを達成します。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。

元のモデルはhttps://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20で見つけることができます。

✨ 主な機能

音声オーディオのみから強力な表現を学習し、微調整により高精度な音声認識が可能。
限られた量のラベル付きデータでも良好な性能を発揮。

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、モデルをスタンドアロンの音響モデルとして次のように使用できます。

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60")
 
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、facebook/wav2vec2-large-960h-lv60をLibriSpeechの「clean」および「other」のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer


librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60")

def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")
    
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=16, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))