wav2vec2-large-100h-lv60-selfオープンソース音声認識モデル - 音声の高精度認識に無料でデプロイ可能

Wav2vec2 Large 100h Lv60 Self

Splend1dchanによって開発

Wav2Vec2-Large-100h-Lv60は、100時間のLibri-LightとLibrispeech音声データを用いて事前学習と微調整を行った大規模モデルで、自己訓練目標で訓練されており、16kHzサンプリングレートの音声認識タスクに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #自己教師あり音声認識 #低リソース音声処理 #高精度音声書き起こし

ダウンロード数 17

リリース時間 : 4/12/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、自己教師あり学習により生の音声から音声表現を学習し、限られた注釈データ下で高性能な音声認識を実現します。

モデル特徴

自己教師あり学習

自己訓練目標を用いて訓練されており、限られた注釈データ下で効果的な音声表現を学習可能

高効率音声認識

Librispeechデータセットにおいて低い単語誤り率(WER)を達成

低リソース適応

わずか10分の注釈データしかない場合でも、許容可能な認識精度を実現

モデル能力

音声認識

音響特徴抽出

英語音声文字起こし

使用事例

音声からテキストへ

会議議事録

英語の会議録音を自動的に文字起こし

ポッドキャスト文字起こし

英語ポッドキャストコンテンツを自動的にテキスト化

音声アシスタント

音声コマンド認識

英語音声コマンドの認識と理解

🚀 Wav2Vec2-Large-100h-Lv60 + Self-Training

このモデルは、fairseqからhuggingfaceへの直接的なstate_dict転送によるもので、重みは同一です。このモデルは、16kHzの音声オーディオで、100時間のLibri-LightとLibrispeechを用いて事前学習および微調整された大規模モデルです。モデルはSelf-Training objectiveを用いて学習されています。モデルを使用する際には、音声入力も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、音声認識タスクに特化したモデルです。事前学習と微調整により、高い精度で音声を文字起こしすることができます。使用する際には、入力音声が16kHzでサンプリングされている必要があります。

✨ 主な機能

音声入力から文字起こしを行うことができます。
事前学習と微調整により、高い精度を実現しています。
モデルの使用時には、入力音声が16kHzでサンプリングされている必要があります。

📦 インストール

このモデルを使用するには、transformersとdatasetsライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets

💻 使用例

基本的な使用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-100h-lv60-self")
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch
result = librispeech_eval.map(map_to_pred, remove_columns=["speech"])
print("WER:", wer(result["text"], result["transcription"]))

📚 ドキュメント

論文情報

Paper
著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

彼らは、初めて、音声オーディオのみから強力な表現を学習し、その後に文字起こしされた音声で微調整することが、概念的により単純でありながら、最良の半教師付き手法を上回ることができることを示しました。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に基づいて定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットで1.8/3.3のWERを達成しています。ラベル付きデータの量を1時間に減らした場合、wav2vec 2.0は、ラベル付きデータを100分の1しか使用しないにもかかわらず、100時間のサブセットで従来の最先端技術を上回っています。たった10分のラベル付きデータと53,000時間のラベルなしデータでの事前学習でも、4.8/8.2のWERを達成しています。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。