SEW-D-base+オープンソース音声認識モデル - 無料でデプロイして効率的な音声認識を実現

ホーム

Sew D Base Plus 400k Ft Ls100h

asappによって開発

SEW-D-base+ は ASAPP Research によって開発された高効率音声認識モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、LibriSpeechデータセットで優れた性能を発揮します。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高効率音声認識 #低単語誤り率 #16kHzオーディオ適合

ダウンロード数 66

リリース時間 : 3/2/2022

モデル概要

このモデルは高効率な自動音声認識(ASR)モデルで、音声認識、話者認識、意図分類などの下流タスクに対して最適化されています。wav2vec 2.0と比較して、性能を維持しながら推論効率を大幅に向上させています。

モデル特徴

高効率推論

wav2vec 2.0と比較して1.9倍の推論速度向上を実現

性能最適化

LibriSpeech 100h - 960hの半教師あり設定で、単語誤り率が13.5%相対的に低下

多タスク適応

音声認識、話者認識、意図分類などの様々な下流タスクに微調整可能

モデル能力

音声認識

話者認識

意図分類

感情認識

使用事例

音声文字起こし

会議記録文字起こし

会議録音を自動的に文字記録に変換

LibriSpeech cleanテストセットでWER 4.34

音声アシスタント

スマート音声アシスタントの音声認識モジュールに使用

LibriSpeech otherテストセットでWER 9.45

🚀 SEW-D-base+

SEW-D by ASAPP Researchによる音声認識モデルで、事前学習済みのベースモデルを提供します。下流タスクでの微調整が可能です。

🚀 クイックスタート

このモデルは、16kHzでサンプリングされた音声オーディオで事前学習されたベースモデルです。モデルを使用する際には、音声入力も16kHzでサンプリングされていることを確認してください。このモデルは、自動音声認識、話者識別、意図分類、感情認識などの下流タスクで微調整する必要があります。

論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

著者: Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi

概要この論文は、自動音声認識（ASR）の事前学習モデルにおける性能と効率のトレードオフについて研究しています。wav2vec 2.0に焦点を当て、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。すべての観察結果をまとめて、SEW（Squeezed and Efficient Wav2vec）という事前学習モデルアーキテクチャを導入します。これは、さまざまなトレーニング設定において、性能と効率の両方の面で大幅な改善をもたらします。たとえば、LibriSpeechの100h - 960hの半教師付き設定では、SEWはwav2vec 2.0と比較して1.9倍の推論速度向上を達成し、単語誤り率を13.5％相対的に削減します。同様の推論時間で、SEWは異なるモデルサイズで単語誤り率を25 - 50％削減します。

元のモデルは https://github.com/asappresearch/sew#model-checkpoints で見つけることができます。

✨ 主な機能

16kHzサンプリング音声で事前学習されたベースモデル
自動音声認識、話者識別などの下流タスクでの微調整可能
性能と効率の両面での改善

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、モデルを以下のように独立した音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, SEWDForCTC
from datasets import load_dataset
import soundfile as sf
import torch
 
# load the model and preprocessor
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-base-plus-400k-ft-ls100h")
model = SEWDForCTC.from_pretrained("asapp/sew-d-base-plus-400k-ft-ls100h")

# load the dummy dataset with speech samples
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# preprocess
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits
 
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

このコードスニペットは、asapp/sew-d-base-plus-400k-ft-ls100h をLibriSpeechの "clean" および "other" のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import SEWDForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWDForCTC.from_pretrained("asapp/sew-d-base-plus-400k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-base-plus-400k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))