wav2vec2-conformer-rope-large-960h-ftオープンソースモデル - 英語の音声認識タスクを高精度で完了

ホーム

Wav2vec2 Conformer Rope Large 960h Ft

facebookによって開発

このモデルは回転位置埋め込み技術を統合し、16kHzサンプリングの音声オーディオに基づき、960時間のLibriSpeechデータで事前学習と微調整が行われ、英語音声認識タスクに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高精度音声認識 #回転位置埋め込み #英語音声処理

ダウンロード数 22.02k

リリース時間 : 4/18/2022

モデル概要

Wav2Vec2 Conformerモデルは回転位置埋め込み技術を組み合わせ、高精度な英語音声認識に特化し、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

回転位置埋め込み技術

回転位置埋め込み(RoPE)技術を採用し、モデルの長いシーケンス音声処理能力を向上させました。

大規模トレーニングデータ

960時間のLibriSpeech音声データに基づいて事前学習と微調整を行いました。

高精度認識

LibriSpeechテストセットで1.96(Clean)と3.98(Other)の単語誤り率(WER)を達成しました。

モデル能力

英語音声認識

16kHzオーディオ処理

長いシーケンス音声転写

使用事例

音声転写

会議議事録の転写

会議録音を自動的に文字記録に変換

高精度な転写結果

音声メモ変換

音声メモを編集可能なテキストに変換

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識し理解する

🚀 Wav2Vec2-Conformer-Large-960h with Rotary Position Embeddings

Wav2Vec2 Conformerは、ロータリー位置埋め込みを使用し、16kHzサンプリングの音声オーディオでLibrispeechの960時間のデータで事前学習およびファインチューニングされています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

論文: fairseq S2T: Fast Speech-to-Text Modeling with fairseq

著者: Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

Wav2Vec2-Conformerの結果は、公式論文の表3と表4に記載されています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で確認できます。

🚀 クイックスタート

このモデルは音声認識に使用できます。以下に使用方法を説明します。

✨ 主な機能

音声オーディオをテキストに変換する自動音声認識機能
16kHzサンプリングの音声に最適化されたモデル

📦 インストール

このモデルを使用するには、transformersとdatasetsライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets

💻 使用例

基本的な使用法

音声ファイルを文字起こしするには、以下のようにモデルを独立した音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, Wav2Vec2ConformerForCTC
from datasets import load_dataset
import torch

# モデルとプロセッサーをロード
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rope-large-960h-ft")
model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rope-large-960h-ft")

# ダミーデータセットをロードし、音声ファイルを読み込む
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# トークン化
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# ロジットを取得
logits = model(input_values).logits

# 最大値を取得してデコード
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、LibriSpeechの "clean" および "other" のテストデータで facebook/wav2vec2-conformer-rope-large-960h-ft を評価する方法を示しています。

from datasets import load_dataset
from transformers import Wav2Vec2ConformerForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rope-large-960h-ft").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rope-large-960h-ft")

def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))