sew - tiny - 100k - ft - ls100hオープンソース音声認識モデル

ホーム

Sew Tiny 100k Ft Ls100h

asappによって開発

SEW（圧縮高効率版Wav2vec）は、ASAPP Researchによって開発された音声認識の事前学習モデルで、性能と効率の面でwav2vec 2.0より優れています。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #高効率音声認識 #低リソース微調整 #16kHzオーディオ処理

ダウンロード数 736

リリース時間 : 3/2/2022

モデル概要

16kHzサンプリングの音声オーディオで事前学習された音声認識モデルで、下流タスクで微調整して使用する必要があります。

モデル特徴

高効率性能

wav2vec 2.0と比較して、推論速度が1.9倍向上し、単語誤り率が13.5%低下します。

圧縮アーキテクチャ

最適化されたモデルアーキテクチャは、性能を維持しながら計算リソースの必要量を削減します。

マルチタスク適合

微調整により、ASR、話者識別、意図分類などのさまざまな音声タスクに適用できます。

モデル能力

音声認識

音声をテキストに変換

オーディオ特徴抽出

使用事例

音声文字起こし

LibriSpeech音声文字起こし

英語のオーディオブックの内容をテキストに起こします。

LibriSpeech cleanテストセットでWER 10.61、otherテストセットでWER 23.74

音声アプリケーション開発

音声アシスタント

音声アシスタントの音声認識コンポーネントとして使用します。

🚀 SEW-tiny

SEW by ASAPP Research

このベースモデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。このモデルは、自動音声認識、話者識別、意図分類、感情認識などの下流タスクでファインチューニングする必要があります。

論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

著者: Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi

概要この論文は、自動音声認識（ASR）の事前学習モデルにおける性能と効率のトレードオフに関する研究です。著者らはwav2vec 2.0に焦点を当て、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化しました。これらの知見を総合して、著者らはSEW（Squeezed and Efficient Wav2vec）という事前学習モデルアーキテクチャを提案しています。これは、様々な学習設定において、性能と効率の両面で大幅な改善をもたらします。例えば、LibriSpeechの100h - 960hの半教師あり設定では、SEWはwav2vec 2.0と比較して1.9倍の推論速度向上を達成し、単語誤り率を13.5％相対的に削減します。同程度の推論時間で、SEWは異なるモデルサイズにわたって単語誤り率を25 - 50％削減します。

元のモデルは、https://github.com/asappresearch/sew#model-checkpoints で見つけることができます。

🚀 クイックスタート

このモデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。また、このモデルは下流タスクでファインチューニングする必要があります。

✨ 主な機能

16kHzサンプリング音声で事前学習されたベースモデル
自動音声認識、話者識別、意図分類、感情認識などの下流タスクでの利用可能

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

# load the model and preprocessor
from transformers import Wav2Vec2Processor, SEWForCTC
from datasets import load_dataset
import soundfile as sf
import torch
 
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")
model = SEWForCTC.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")

# load the dummy dataset with speech samples
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# preprocess
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits
 
# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

# このコードスニペットは、LibriSpeechの"clean"および"other"のテストデータでasapp/sew-tiny-100k-ft-ls100hを評価する方法を示しています。
from datasets import load_dataset
from transformers import SEWForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWForCTC.from_pretrained("asapp/sew-tiny-100k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-tiny-100k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))

📚 ドキュメント

論文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
元のモデル: https://github.com/asappresearch/sew#model-checkpoints

🔧 技術詳細

このREADMEには技術的な詳細が十分に記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

その他の情報

属性	详情
データセット	librispeech_asr
タグ	オーディオ、音声、自動音声認識、hf-asr-leaderboard
ライセンス	Apache-2.0
ウィジェット例1	Librispeech sample 1
ウィジェット例2	Librispeech sample 2