🚀 S2T-SMALL-MUSTC-EN-ES-ST
s2t-small-mustc-en-es-st
は、エンドツーエンドの音声翻訳(ST)用に学習された音声からテキストへのTransformer(S2T)モデルです。S2Tモデルは この論文 で提案され、このリポジトリ で公開されました。
🚀 クイックスタート
このモデルは、エンドツーエンドの英語の音声をスペイン語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブ を参照してください。
✨ 主な機能
S2Tは、エンドツーエンドの自動音声認識(ASR)と音声翻訳(ST)用に設計された、Transformerベースのseq2seq(エンコーダ-デコーダ)モデルです。畳み込みダウンサンプラーを使用して、音声入力の長さを3/4に短縮してからエンコーダに入力します。このモデルは、標準的な自己回帰型の交差エントロピー損失を使用して学習され、自己回帰的に文字起こし/翻訳を生成します。
📦 インストール
Speech2TextProcessor
オブジェクトは torchaudio を使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudio
パッケージをインストールする必要があります。
以下のいずれかの方法でインストールできます。
💻 使用例
基本的な使用法
import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf
model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-mustc-en-es-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-mustc-en-es-st")
def map_to_array(batch):
speech, _ = sf.read(batch["file"])
batch["speech"] = speech
return batch
ds = load_dataset(
"patrickvonplaten/librispeech_asr_dummy",
"clean",
split="validation"
)
ds = ds.map(map_to_array)
inputs = processor(
ds["speech"][0],
sampling_rate=16_000,
return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
translation = processor.batch_decode(generated_ids, skip_special_tokens=True)
高度な使用法
このモデルは標準的なシーケンス-to-シーケンスのTransformerモデルであるため、音声特徴量をモデルに渡すことで、generate
メソッドを使用して文字起こしを生成できます。
📚 ドキュメント
学習データ
s2t-small-mustc-en-es-stは、MuST-C の英語-スペイン語サブセットで学習されています。MuST-Cは多言語音声翻訳コーパスで、そのサイズと品質により、英語から複数の言語への音声翻訳のエンドツーエンドシステムの学習が容易になります。各ターゲット言語に対して、MuST-Cは英語のTEDトークの数百時間の音声録音を含み、これらは手動の文字起こしと翻訳と文レベルで自動的にアライメントされています。
学習手順
前処理
音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャンネルのログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN(ケプストラム平均と分散正規化)が適用されます。
テキストは小文字に変換され、SentencePieceを使用して語彙サイズ8,000でトークン化されます。
学習
このモデルは、標準的な自己回帰型の交差エントロピー損失を使用し、SpecAugment を使用して学習されます。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。モデルの学習を加速し、より良い性能を得るために、エンコーダは英語のASR用に事前学習されています。
評価結果
MuST-Cの英語-スペイン語のテスト結果(BLEUスコア):27.2
BibTeX引用
@inproceedings{wang2020fairseqs2t,
title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
year = {2020},
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
その他の情報
プロパティ |
詳細 |
言語 |
英語、スペイン語 |
データセット |
MuST-C |
タグ |
オーディオ、音声翻訳、自動音声認識 |
パイプラインタグ |
自動音声認識 |
⚠️ 重要な注意
Speech2TextProcessor
オブジェクトは torchaudio を使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudio
パッケージをインストールする必要があります。
💡 使用上のヒント
他のS2Tチェックポイントを探すには、モデルハブ を参照してください。