s2t - medium - librispeech - asrオープンソース音声テキスト変換モデル

ホーム

S2t Medium Librispeech Asr

facebookによって開発

シーケンスツーシーケンストランスフォーマーアーキテクチャに基づく、自動音声認識(ASR)用の音声からテキストへの変換器(S2T)モデル

音声認識

Transformers

英語オープンソースライセンス:MIT #エンドツーエンド音声認識 #高精度文字起こし #英語ASR

ダウンロード数 1,086

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのシーケンスツーシーケンストランスフォーマーモデルで、標準的な自己回帰交差エントロピー損失を使用して学習され、音声をテキストに変換することができます。

モデル特徴

エンドツーエンド音声認識

音声特徴から直接テキストを生成し、中間処理ステップは必要ありません。

自己回帰生成

自己回帰方式を使用して、文字起こしテキストを段階的に生成します。

LibriSpeech学習

LibriSpeechデータセットで学習され、英語の音声認識に適しています。

モデル能力

音声認識

英語文字起こし

エンドツーエンド音声からテキストへの変換

使用事例

音声文字起こし

会議記録

会議の録音を自動的に文字記録に変換します。

音声メモ

音声メモを検索可能なテキストに変換します。

支援技術

リアルタイム字幕

聴覚障害者にリアルタイムの音声から文字への変換サービスを提供します。

🚀 S2T-MEDIUM-LIBRISPEECH-ASR

s2t-medium-librispeech-asr は、自動音声認識（ASR）用に学習された音声からテキストへの変換トランスフォーマー（S2T）モデルです。S2Tモデルはこの論文で提案され、このリポジトリで公開されています。

🚀 クイックスタート

S2T-MEDIUM-LIBRISPEECH-ASRは、自動音声認識を行うためのトランスフォーマーモデルです。このモデルを使うことで、音声データからテキストを生成することができます。

✨ 主な機能

エンドツーエンドの音声認識が可能です。
標準的なシーケンストゥシーケンストランスフォーマーモデルであり、generate メソッドを使って音声の文字起こしを生成できます。

📦 インストール

このモデルを使用するには、いくつかの依存パッケージをインストールする必要があります。以下のいずれかの方法でインストールできます。

追加の音声依存関係を一括でインストールする場合：
```
pip install transformers"[speech, sentencepiece]"
```
パッケージを個別にインストールする場合：
```
pip install torchaudio sentencepiece
```

⚠️ 重要提示

Speech2TextProcessor オブジェクトは torchaudio を使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudio パッケージをインストールしてください。

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
processor = Speech2Textprocessor.from_pretrained("facebook/s2t-medium-librispeech-asr")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

input_features = processor(
    ds["speech"][0],
    sampling_rate=16_000,
    return_tensors="pt"
).input_features  # Batch size 1
generated_ids = model.generate(input_features=input_features)

transcription = processor.batch_decode(generated_ids)

高度な使用法

LibriSpeechテストでの評価

以下のスクリプトは、このモデルを LibriSpeech の "clean" および "other" テストデータセットで評価する方法を示しています。

from datasets import load_dataset
from evaluate import load
from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")  # change to "other" for other test dataset
wer = load("wer")

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr").to("cuda")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr", do_upper_case=True)


def map_to_pred(batch):
    features = processor(batch["audio"]["array"], sampling_rate=16000, padding=True, return_tensors="pt")
    input_features = features.input_features.to("cuda")
    attention_mask = features.attention_mask.to("cuda")

    gen_tokens = model.generate(input_features=input_features, attention_mask=attention_mask)
    batch["transcription"] = processor.batch_decode(gen_tokens, skip_special_tokens=True)[0]
    return batch

result = librispeech_eval.map(map_to_pred, remove_columns=["audio"])

print("WER:", wer.compute(predictions=result["transcription"], references=result["text"]))

"clean"	"other"
3.5	7.8

📚 ドキュメント

モデルの説明

S2Tはエンドツーエンドのシーケンストゥシーケンストランスフォーマーモデルです。標準的な自己回帰型の交差エントロピー損失を使用して学習され、自己回帰的に文字起こしを生成します。

想定される用途と制限

このモデルはエンドツーエンドの音声認識（ASR）に使用できます。他のS2Tチェックポイントを探すにはモデルハブを参照してください。

使い方

これは標準的なシーケンストゥシーケンストランスフォーマーモデルであるため、音声特徴量をモデルに渡して generate メソッドを使用することで文字起こしを生成できます。

🔧 技術詳細

学習データ

S2T-MEDIUM-LIBRISPEECH-ASRは、約1000時間の16kHzの英語の読み上げ音声からなるデータセットである LibriSpeech ASR Corpus で学習されています。

学習手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャンネルのログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、SentencePieceを使用して語彙サイズ10,000でトークン化されます。

学習

モデルは標準的な自己回帰型の交差エントロピー損失を使用し、SpecAugment を使用して学習されます。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。

BibTeXエントリと引用情報

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}