sew-d-mid-k127-400k-ft-ls100hオープンソース音声認識モデル - wav2vec 2.0を圧倒する効率的な認識力

ホーム

Sew D Mid K127 400k Ft Ls100h

asappによって開発

SEW-D-mid-k127はASAPP Researchが開発した高効率音声認識事前学習モデルで、性能と効率の面でwav2vec 2.0と比べて大幅な改善が見られます。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高効率音声認識 #低単語誤り率 #16kHz音声処理

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)のための事前学習モデルで、SEW(Squeezed and Efficient Wav2vec)アーキテクチャに基づき、16kHzでサンプリングされた音声データで事前学習されています。特定のタスクで微調整した後に使用する必要があります。

モデル特徴

効率的なアーキテクチャ設計

wav2vec 2.0と比べて1.9倍の推論速度向上を実現しつつ、認識精度を維持または向上させています

性能最適化

様々なモデルサイズで25-50%の単語誤り率を削減

マルチタスク適応性

自動音声認識、話者認識、意図分類、感情認識などの下流タスクで微調整して使用可能

モデル能力

英語音声認識

音声特徴抽出

音声内容文字起こし

使用事例

音声文字起こし

会議議事録

会議の録音を自動的に文字起こし

LibriSpeech cleanテストセットでWER 4.99

音声テキスト変換サービス

アプリケーションに音声からテキストへの変換機能を提供

LibriSpeech otherテストセットでWER 10.95

音声分析

話者認識

異なる話者の音声特徴を識別・分析

🚀 SEW-D-mid-k127

SEW-D by ASAPP Research

このモデルは、16kHzでサンプリングされた音声オーディオを使用して事前学習されたベースモデルです。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。このモデルは、自動音声認識、話者識別、意図分類、感情認識などの下流タスクで微調整する必要があります。

論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

著者: Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi

概要この論文は、自動音声認識（ASR）の事前学習モデルにおける性能と効率のトレードオフについて研究したものです。著者らはwav2vec 2.0に焦点を当て、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化しました。これらの知見をまとめて、著者らはSEW（Squeezed and Efficient Wav2vec）という事前学習モデルアーキテクチャを提案しました。これは、さまざまな学習設定において、性能と効率の両面で大幅な改善をもたらします。たとえば、LibriSpeechの100h - 960hの半教師あり設定では、SEWはwav2vec 2.0と比較して1.9倍の推論速度向上を達成し、単語誤り率を13.5％相対的に削減します。同程度の推論時間で、SEWは異なるモデルサイズで単語誤り率を25 - 50％削減します。

元のモデルは、https://github.com/asappresearch/sew#model-checkpoints で見つけることができます。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしに使用できます。以下に、独立した音響モデルとして使用する例を示します。

💻 使用例

基本的な使用法

from transformers import Wav2Vec2Processor, SEWDForCTC
from datasets import load_dataset
import soundfile as sf
import torch
 
# load the model and preprocessor
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-mid-k127-400k-ft-ls100h")
model = SEWDForCTC.from_pretrained("asapp/sew-d-mid-k127-400k-ft-ls100h")

# load the dummy dataset with speech samples
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# preprocess
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits
 
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

以下のコードスニペットは、LibriSpeechの"clean"および"other"のテストデータで asapp/sew-d-mid-k127-400k-ft-ls100hh を評価する方法を示しています。

from datasets import load_dataset
from transformers import SEWDForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWDForCTC.from_pretrained("asapp/sew-d-mid-k127-400k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-mid-k127-400k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))