SEW - D - tiny - 100k - ft - ls100hオープンソース音声認識モデル - 性能と効率をバランスさせ、音声を高精度に認識

ホーム

Sew D Tiny 100k Ft Ls100h

asappによって開発

SEW-D-tinyはASAPP Researchによって開発された高効率音声認識事前学習モデルで、性能と効率のバランスに重点を置いています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #高効率音声認識 #軽量モデル #低リソース微調整

ダウンロード数 24.55k

リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリングの音声オーディオで事前学習されており、自動音声認識、話者認識、意図分類などの下流タスクに適しています。

モデル特徴

高効率推論

wav2vec 2.0と比較して1.9倍の推論速度向上を実現しました。

性能向上

LibriSpeechの100h - 960h半教師あり設定で、単語誤り率が相対的に13.5%低下しました。

軽量性

モデル設計は効率に重点を置いており、リソースが制限された環境に適しています。

モデル能力

音声認識

話者認識

意図分類

感情認識

使用事例

音声をテキストに変換

LibriSpeech音声文字起こし

LibriSpeechデータセットの音声をテキストに変換します。

LibriSpeech cleanテストセットでのWERは10.47、otherテストセットでのWERは22.73です。

🚀 SEW-D-tiny

SEW-D by ASAPP Research

このモデルは、16kHzでサンプリングされた音声オーディオで事前学習されたベースモデルです。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。このモデルは、自動音声認識、話者識別、意図分類、感情認識などの下流タスクでファインチューニングする必要があります。

論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

著者: Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi

概要この論文は、自動音声認識（ASR）の事前学習モデルにおける性能と効率のトレードオフに関する研究です。著者らはwav2vec 2.0に焦点を当て、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化しています。これらの知見をまとめて、著者らはSEW（Squeezed and Efficient Wav2vec）という事前学習モデルアーキテクチャを導入しています。これは、様々なトレーニング設定において、性能と効率の両面で大幅な改善をもたらします。たとえば、LibriSpeechの100h - 960hの半教師あり設定では、SEWはwav2vec 2.0と比較して1.9倍の推論速度向上を達成し、単語誤り率を13.5％相対的に削減します。同程度の推論時間で、SEWは異なるモデルサイズで単語誤り率を25 - 50％削減します。

元のモデルは、https://github.com/asappresearch/sew#model-checkpoints で見つけることができます。

🚀 クイックスタート

このモデルを使用するには、入力音声が16kHzでサンプリングされていることを確認し、下流タスクでファインチューニングする必要があります。

✨ 主な機能

16kHzでサンプリングされた音声オーディオで事前学習されたモデル。
自動音声認識、話者識別、意図分類、感情認識などの下流タスクでのファインチューニングが可能。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、モデルを以下のようにスタンドアロンの音響モデルとして使用できます。

from transformers import Wav2Vec2Processor, SEWDForCTC
from datasets import load_dataset
import soundfile as sf
import torch
 
# モデルと前処理器をロード
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-tiny-100k-ft-ls100h")
model = SEWDForCTC.from_pretrained("asapp/sew-d-tiny-100k-ft-ls100h")

# 音声サンプルを含むダミーデータセットをロード
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# 前処理
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # バッチサイズ1

# ロジットを取得
logits = model(input_values).logits
 
# 最大値を取り、デコード
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

以下のコードスニペットは、asapp/sew-d-tiny-100k-ft-ls100h をLibriSpeechの "clean" と "other" のテストデータで評価する方法を示しています。

from datasets import load_dataset
from transformers import SEWDForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWDForCTC.from_pretrained("asapp/sew-d-tiny-100k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-tiny-100k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))

結果（WER）:

"clean"	"other"
10.47	22.73

📚 ドキュメント

このモデルの詳細な情報は以下の通りです。

データセット

librispeech_asr: このモデルはLibriSpeechデータセットで評価されています。

ウィジェット例

モデル指標

プロパティ	詳細
モデル名	sew-d-tiny-100k-ft-ls100h
タスク	自動音声認識
データセット	LibriSpeech (clean), LibriSpeech (other)
評価指標 (Test WER)	"clean": 10.47, "other": 22.73