Wav2Vec2-large-960h-lv60-selfオープンソース音声モデル

Wav2vec2 Large 960h Lv60 Self

facebookによって開発

Facebookが開発したWav2Vec2の大規模モデルで、960時間のLibri-LightとLibrispeechの音声データを基に事前学習と微調整を行い、自己学習目標を採用し、LibriSpeechテストセットでSOTAの結果を達成しました。

音声認識英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #自己教師付き事前学習 #低リソース適合

ダウンロード数 56.00k

リリース時間 : 3/2/2022

モデル概要

自動音声認識(ASR)に使用する事前学習モデルで、自己教師付き学習により生のオーディオから音声表現を学習し、微調整を通じて高精度な音声からテキストへの変換を実現します。

モデル特徴

自己教師付き事前学習

対比学習目標を通じて潜在空間で音声表現を学習し、ラベル付きデータへの依存を減らします。

高精度認識

LibriSpeechテストセットで1.9/3.9 WER(clean/other)のSOTAの結果を達成しました。

低リソース適応

少量のラベル付きデータでも微調整が可能で、1時間のラベル付きデータでも従来の方法を上回ります。

モデル能力

英語音声認識

16kHzオーディオ処理

エンドツーエンドの音声からテキストへの変換

使用事例

音声書き起こし

会議記録の自動化

英語の会議録音を自動的に文字記録に変換します。

高い正確率での書き起こしが可能で、人手による記録コストを削減します。

ポッドキャスト字幕生成

英語のポッドキャスト内容に自動的に字幕を生成します。

バッチ処理に対応し、正確率は96%以上です。

支援技術

聴覚障害者支援

音声をリアルタイムで文字に変換し、聴覚障害者が読めるようにします。

低遅延でのリアルタイム変換が可能です。

🚀 Wav2Vec2-Large-960h-Lv60 + Self-Training

この大規模モデルは、16kHzのサンプリングレートで960時間のLibri-LightとLibrispeechの音声データで事前学習および微調整されています。モデルはSelf-Training objectiveで学習されています。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、Facebook's Wav2Vec2に基づいており、音声認識タスクに使用できます。

✨ 主な機能

大規模な音声データで事前学習および微調整されたモデル。
Self-Training objectiveを用いた学習方法。
16kHzのサンプリングレートの音声入力に最適化。

📦 インストール

このモデルを使用するには、transformersとdatasetsライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets

💻 使用例

基本的な使用法

音声ファイルを文字起こしするには、以下のようにモデルを独立した音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

以下のコードスニペットは、facebook/wav2vec2-large-960h-lv60-self をLibriSpeechの "clean" および "other" のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))

Result (WER):

"clean"	"other"
1.9	3.9

📚 ドキュメント

論文
著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

本研究では、音声オーディオのみから強力な表現を学習し、その後に文字起こしされた音声で微調整することで、概念的により単純でありながら、最良の半教師あり学習方法を上回る可能性を初めて示しまし。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に対して定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットで1.8/3.3のWERが達成されます。ラベル付きデータの量を1時間に減らすと、wav2vec 2.0は100時間のサブセットで以前の最先端技術を上回り、ラベル付きデータの使用量は100分の1になります。たった10分のラベル付きデータと53,000時間のラベルなしデータでの事前学習でも、4.8/8.2のWERが達成されます。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。