s2t-small-librispeech-asrオープンソースの音声からテキストへの変換ツール

ホーム

Assignment1 Maria

Classroom-workshopによって開発

s2t-small-librispeech-asr は自動音声認識（ASR）のための音声からテキストへの変換（S2T）モデルで、シーケンス・ツー・シーケンスのトランスフォーマーアーキテクチャに基づいています。

音声認識

Transformers

英語オープンソースライセンス:MIT #エンドツーエンド音声認識 #高精度WER #英語音声テキスト変換

ダウンロード数 23

リリース時間 : 6/2/2022

モデル概要

このモデルはエンドツーエンドのシーケンス・ツー・シーケンストランスフォーマーモデルで、標準的な自己回帰交差エントロピー損失でトレーニングされ、自己回帰的に転写テキストを生成します。主に英語音声認識タスクに使用されます。

モデル特徴

エンドツーエンド音声認識

シーケンス・ツー・シーケンスアーキテクチャを採用し、音声特徴から直接テキストを生成し、中間処理ステップが不要です。

高精度

LibriSpeechテストセットで4.3（clean）と9.0（other）のWER（単語誤り率）を達成しました。

使いやすさ

シンプルなAPIインターフェースを提供し、数行のコードで音声認識機能を実現できます。

モデル能力

英語音声認識

エンドツーエンド音声テキスト変換

リアルタイム音声転写

使用事例

音声転写

会議議事録

会議録音を自動的に文字記録に転写

LibriSpeech cleanテストセットで95.7%の高精度

音声アシスタント

音声アシスタントに音声認識機能を提供

教育

講義転写

教育講義内容を自動的に文字に転写

🚀 S2T-SMALL-LIBRISPEECH-ASR

s2t-small-librispeech-asr は、自動音声認識（ASR）用にトレーニングされた音声からテキストへの変換トランスフォーマー（S2T）モデルです。 S2Tモデルはこの論文で提案され、このリポジトリで公開されました。

🚀 クイックスタート

このモデルは、エンドツーエンドの音声認識（ASR）に使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

S2Tはエンドツーエンドのシーケンストゥシーケンストランスフォーマーモデルです。標準的な自己回帰型の交差エントロピー損失でトレーニングされ、自己回帰的に文字起こしを生成します。

📦 インストール

このモデルを使用するには、以下の依存関係をインストールする必要があります。 pip install transformers"[speech, sentencepiece]" または、個別にパッケージをインストールすることもできます。 pip install torchaudio sentencepiece

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)

input_features = processor(
    ds[0]["audio"]["array"],
    sampling_rate=16_000,
    return_tensors="pt"
).input_features  # Batch size 1
generated_ids = model.generate(input_ids=input_features)

transcription = processor.batch_decode(generated_ids)

高度な使用法

LibriSpeechテストでの評価

以下のスクリプトは、このモデルを LibriSpeech の "clean" および "other" テストデータセットで評価する方法を示しています。

from datasets import load_dataset, load_metric
from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")  # change to "other" for other test dataset
wer = load_metric("wer")

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr").to("cuda")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr", do_upper_case=True)

librispeech_eval = librispeech_eval.map(map_to_array)

def map_to_pred(batch):
    features = processor(batch["audio"]["array"], sampling_rate=16000, padding=True, return_tensors="pt")
    input_features = features.input_features.to("cuda")
    attention_mask = features.attention_mask.to("cuda")

    gen_tokens = model.generate(input_ids=input_features, attention_mask=attention_mask)
    batch["transcription"] = processor.batch_decode(gen_tokens, skip_special_tokens=True)
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=8, remove_columns=["speech"])

print("WER:", wer(predictions=result["transcription"], references=result["text"]))

結果（WER）:

"clean"	"other"
4.3	9.0

📚 ドキュメント

トレーニングデータ

S2T-SMALL-LIBRISPEECH-ASRは、LibriSpeech ASRコーパスでトレーニングされています。このデータセットは、約1000時間の16kHzの読み上げ英語音声で構成されています。

トレーニング手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャンネルログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。テキストは小文字に変換され、SentencePieceを使用して語彙サイズ10,000でトークン化されます。

トレーニング

モデルは、標準的な自己回帰型の交差エントロピー損失と SpecAugment を使用してトレーニングされます。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。

BibTeXエントリと引用情報

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}