wav2vec2-large-10min-lv60-selfオープンソース音声認識モデル

Wav2vec2 Large 10min Lv60 Self

Splend1dchanによって開発

このモデルはWav2Vec2アーキテクチャに基づく大規模音声認識モデルで、Libri-LightとLibrispeechの10分間データで事前学習と微調整が行われ、自己学習目標を使用してトレーニングされました。16kHzサンプリングレートの音声オーディオに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #低リソース音声認識 #自己教師あり学習 #16kHz音声処理

ダウンロード数 177

リリース時間 : 4/12/2022

モデル概要

Wav2Vec2 2.0は自動音声認識(ASR)モデルで、生の音声オーディオから強力な表現を学習し、音声を転写することで微調整を行うことで、限られた注釈データ下での効率的な音声認識を実現しました。

モデル特徴

自己学習目標

モデルは自己学習目標を使用してトレーニングされ、限られた注釈データ下での性能が向上しました。

低リソース音声認識

10分間の注釈データと53k時間の無注釈データのみを使用して事前学習を行い、良好な音声認識効果を実現しました。

潜在空間マスキング

潜在空間で音声入力をマスキングし、対照タスクを通じて潜在表現の量子化問題を解決します。

モデル能力

音声認識

音声処理

自動音声テキスト変換

使用事例

音声転写

会議議事録

会議録音を自動的にテキスト記録に転写

音声メモ

音声メモを検索可能なテキストに変換

支援技術

聴覚支援

聴覚障害者向けにリアルタイム音声テキスト変換サービスを提供

🚀 Wav2Vec2-Large-10min-Lv60 + Self-Training

このモデルは、fairseqからhuggingfaceへの直接のstate_dict転送であり、重みは同一です。FacebookのWav2Vec2

この大規模モデルは、16kHzサンプリングの音声オーディオに対して、10分間のLibri-LightとLibrispeechで事前学習および微調整されています。モデルはSelf-Training objectiveで学習されています。モデルを使用する際には、音声入力も16Khzでサンプリングされていることを確認してください。

論文

著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

彼らは初めて、音声オーディオのみから強力な表現を学習し、その後に文字起こしされた音声で微調整することで、概念的により単純でありながら、最良の半教師付き手法を上回ることができることを示しました。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に対して定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットで1.8/3.3のWERを達成します。ラベル付きデータの量を1時間に減らすと、wav2vec 2.0は100時間のサブセットで以前の最先端技術を上回り、ラベル付きデータを100分の1に減らしています。たった10分のラベル付きデータと53,000時間のラベルなしデータでの事前学習でも、4.8/8.2のWERを達成します。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。

🚀 クイックスタート

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、このモデルは以下のように独立した音響モデルとして使用できます。

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")
 model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、FacebookのSplend1dchan/wav2vec2-large-10min-lv60-selfをLibriSpeechの「クリーン」および「その他」のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")
    
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch
result = librispeech_eval.map(map_to_pred, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))

📄 ライセンス

このモデルのライセンスは、Apache-2.0です。

Property	Details
Model Type	Wav2Vec2-Large-10min-Lv60 + Self-Training
Training Data	Libri-Light and Librispeech
Datasets	librispeech_asr
Tags	speech, audio, automatic-speech-recognition, hf-asr-leaderboard