wav2vec2-conformer-rel-pos-large-960h-ftオープンソース音声モデル - 16kHzオーディオの高精度音声認識をサポート

ホーム

Wav2vec2 Conformer Rel Pos Large 960h Ft

facebookによって開発

16kHzサンプリング音声オーディオに基づくWav2Vec2-Conformerモデルで、相対位置埋め込み技術を採用し、960時間のLibrispeechデータで事前学習と微調整を行った

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #相対位置埋め込み #英語音声処理

ダウンロード数 1,038

リリース時間 : 4/18/2022

モデル概要

これは自動音声認識(ASR)のためのConformerアーキテクチャモデルで、英語音声の転写をサポートし、高精度と低単語誤り率(WER)を実現

モデル特徴

相対位置埋め込み

相対位置埋め込み技術を採用し、音声シーケンスの位置関係モデリング能力を向上

高精度

LibriSpeechテストセットで1.85(clean)と3.83(other)の単語誤り率(WER)を達成

大規模トレーニング

960時間のLibriSpeech音声データに基づく事前学習と微調整

モデル能力

英語音声認識

16kHzオーディオ処理

長シーケンス音声転写

使用事例

音声転写

会議議事録

会議録音を自動的にテキストに転写

高精度な転写テキスト

音声ノート変換

音声ノートを編集可能なテキストに変換

支援技術

リアルタイム字幕生成

動画やライブコンテンツのリアルタイム字幕生成

🚀 Wav2Vec2-Conformer-Large-960h with Relative Position Embeddings

Wav2Vec2-Conformerは相対位置埋め込みを使用し、16kHzサンプリングの音声オーディオで、Librispeechの960時間のデータで事前学習とファインチューニングが行われています。このモデルを使用する際は、入力音声も16kHzでサンプリングされていることを確認してください。

論文: fairseq S2T: Fast Speech-to-Text Modeling with fairseq

著者: Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformerの結果は、公式論文の表3と表4に記載されています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしに使用できます。以下に、単独の音響モデルとして使用する例を示します。

💻 使用例

基本的な使用法

from transformers import Wav2Vec2Processor, Wav2Vec2ConformerForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-960h-ft")
model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rel-pos-large-960h-ft")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

🔧 評価

このコードスニペットは、LibriSpeechの「clean」と「other」のテストデータで facebook/wav2vec2-conformer-rel-pos-large-960h-ft を評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ConformerForCTC, Wav2Vec2Processor
import torch
from jiwer import wer


librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self")

def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))