🚀 S2T-SMALL-COVOST2-EN-FA-ST
s2t-small-covost2-en-fa-st
は、エンドツーエンドの音声翻訳(ST)用にトレーニングされた音声からテキストへのTransformer(S2T)モデルです。
S2Tモデルは この論文 で提案され、
このリポジトリ で公開されています。
🚀 クイックスタート
このモデルは、英語の音声をエンドツーエンドでペルシア語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブ を参照してください。
✨ 主な機能
- エンドツーエンドの音声翻訳(ST)に対応
- オートレグレッシブな方式でトランスクリプト/翻訳を生成
📦 インストール
このモデルを使用するには、必要なパッケージをインストールする必要があります。以下のいずれかの方法でインストールできます。
追加の音声依存関係としてインストール
pip install transformers"[speech, sentencepiece]"
パッケージを個別にインストール
pip install torchaudio sentencepiece
💻 使用例
基本的な使用法
import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf
model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-covost2-en-fa-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-covost2-en-fa-st")
def map_to_array(batch):
speech, _ = sf.read(batch["file"])
batch["speech"] = speech
return batch
ds = load_dataset(
"patrickvonplaten/librispeech_asr_dummy",
"clean",
split="validation"
)
ds = ds.map(map_to_array)
inputs = processor(
ds["speech"][0],
sampling_rate=48_000,
return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
translation = processor.batch_decode(generated_ids, skip_special_tokens=True)
注意事項
⚠️ 重要提示
Speech2TextProcessor
オブジェクトは torchaudio を使用してフィルタバンク特徴を抽出します。この例を実行する前に、torchaudio
パッケージをインストールしてください。
📚 ドキュメント
モデルの説明
S2Tは、エンドツーエンドの自動音声認識(ASR)と音声翻訳(ST)用に設計されたTransformerベースのシーケンスツーシーケンス(エンコーダ-デコーダ)モデルです。音声入力は、エンコーダに入力される前に、畳み込みダウンサンプラーによって3/4に縮小されます。モデルは、標準的なオートレグレッシブクロスエントロピー損失でトレーニングされ、トランスクリプト/翻訳をオートレグレッシブに生成します。
想定される用途と制限
このモデルは、英語の音声をエンドツーエンドでペルシア語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブ を参照してください。
トレーニングデータ
s2t-small-covost2-en-fa-st
は、CoVoST2 の英語-ペルシア語サブセットでトレーニングされています。CoVoSTは、Common Voice に基づく大規模な多言語STコーパスで、これまでで最大のオープンデータセットを使用してST研究を促進するために作成されました。
トレーニング手順
前処理
音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャネルログメルフィルタバンク特徴を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN(ケプストラム平均と分散正規化)が適用されます。
テキストは小文字に変換され、文字ベースのSentencePiece語彙を使用してトークン化されます。
トレーニング
モデルは、標準的なオートレグレッシブクロスエントロピー損失と SpecAugment を使用してトレーニングされます。エンコーダは音声特徴を受け取り、デコーダはトランスクリプトをオートレグレッシブに生成します。モデルのトレーニングを加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前学習されています。
評価結果
CoVOST2の英語-ペルシア語のテスト結果(BLEUスコア):11.43
BibTeX引用
@inproceedings{wang2020fairseqs2t,
title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
year = {2020},
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。