wav2vec2-base-960hオープンソースモデル - 無料で英語の自動音声認識タスクをサポート

ホーム

Wav2vec2 Base 960h

facebookによって開発

Facebookが開発したWav2Vec2の基礎モデルで、960時間のLibrispeech音声オーディオで事前学習と微調整を行い、英語の自動音声認識タスクに使用されます。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #英語音声をテキストに変換 #低リソース適合

ダウンロード数 2.1M

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、英語の音声をテキストに変換することができます。Librispeechデータセットで事前学習と微調整を行い、16kHzのサンプリングレートのオーディオ入力をサポートしています。

モデル特徴

効率的な音声認識

Librispeechのクリーンテストセットで3.4%の単語誤り率(WER)を達成し、優れた性能を発揮します。

有限なラベル付きデータでの高性能

たった10分のラベル付きデータと53k時間のラベルなしデータで事前学習を行っても、4.8/8.2のWERを達成できます。

16kHzサンプリングレートのサポート

モデルは16kHzのサンプリングレートのオーディオに対して最適化されており、使用時には入力オーディオがこの仕様に合致していることを確認してください。

モデル能力

英語音声認識

オーディオをテキストに変換

自動音声文字起こし

使用事例

音声文字起こし

会議記録

会議の録音を自動的に文字起こしします。

高い精度の文字起こし結果

ポッドキャスト文字起こし

英語のポッドキャスト内容を検索可能なテキストに変換します。

内容の検索と分析が容易になります

支援技術

音声入力システム

障害者に音声を文字に変換する機能を提供します。

アクセシビリティを向上させます

🚀 Wav2Vec2-Base-960h

Wav2Vec2-Base-960hは、960時間のLibrispeechデータセットに基づき、16kHzのサンプリング音声オーディオで事前学習と微調整を行った基礎モデルです。自動音声認識タスクを支援し、音声処理分野に強力なサポートを提供します。

🚀 クイックスタート

このモデルを使用する際には、音声入力が16kHzのサンプリングであることを確認してください。

✨ 主な機能

Wav2Vec2-Base-960hは、自動音声認識タスクにおいて、強力な性能を発揮します。960時間のLibrispeechデータセットを用いて事前学習と微調整が行われており、音声の特徴を効果的に捉えることができます。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

以下のコードは、このモデルを独立した音響モデルとしてオーディオファイルを文字起こしする方法を示しています。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# モデルとトークナイザーをロード
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

# ダミーデータセットをロードし、オーディオファイルを読み込む
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# トークナイズ
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # バッチサイズは 1
# 対数確率を取得
logits = model(input_values).logits

# 最大値を取り、デコード
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

以下のコードは、LibriSpeechの「クリーン」と「その他」のテストデータで facebook/wav2vec2-base-960h モデルを評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))

📚 ドキュメント

🔍 基本情報

属性	詳細
モデルタイプ	Wav2Vec2-Base-960h
学習データ	librispeech_asr
ラベル	オーディオ、自動音声認識、hf-asr-leaderboard
ライセンス	apache-2.0

👀 サンプル表示

📚 関連リンク

Facebook's Wav2Vec2
論文
元のモデルのアドレス：https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20

📝 著者情報

著者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

📃 概要

我々は初めて、音声オーディオから強力な表現を学習し、その後転写音声で微調整することで、概念的により単純でありながら、最良の半教師あり手法を上回ることを実証しました。wav2vec 2.0は潜在空間で音声入力をマスクし、潜在表現の量子化に基づく対照的なタスクを解決します。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットで1.8/3.3の単語誤り率（WER）が達成されました。ラベル付きデータを1時間に減らすと、wav2vec 2.0は100時間のサブセットで以前の最適手法を上回り、同時に使用するラベル付きデータ量を100分の1に減らします。10分のラベル付きデータのみを使用し、53000時間のラベルなしデータで事前学習を行っても、4.8/8.2のWERが達成されます。これは、限られたラベル付きデータでの音声認識の実行可能性を証明しています。