s2t-small-covost2-en-fa-stオープンソースモデル - 英語からペルシア語への音声翻訳タスクをサポート

ホーム

S2t Small Covost2 En Fa St

facebookによって開発

Transformerベースのエンドツーエンド音声翻訳モデルで、英語からペルシャ語への音声翻訳タスク用

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #英語-ペルシャ語音声翻訳 #エンドツーエンド音声処理 #Transformerベース

ダウンロード数 49

リリース時間 : 3/2/2022

モデル概要

このモデルはシーケンス・ツー・シーケンスの音声テキスト変換器(S2T)で、英語音声からペルシャ語テキストへの翻訳タスク専用に設計されています。音声入力処理に畳み込みダウンサンプラーを使用し、翻訳にTransformerアーキテクチャを採用しています。

モデル特徴

エンドツーエンド音声翻訳

英語音声入力から直接ペルシャ語テキスト出力を生成、中間の書き起こしステップ不要

畳み込みダウンサンプラー

音声入力の長さを短縮するために畳み込み層を使用し、処理効率を向上

Transformerアーキテクチャベース

標準的なTransformerエンコーダー・デコーダー構造を採用し、優れたシーケンスモデリング能力を有する

多言語対応

英語からペルシャ語への翻訳タスクをサポート

モデル能力

音声翻訳

英語音声認識

ペルシャ語テキスト生成

使用事例

音声翻訳アプリケーション

リアルタイム音声翻訳

英語音声をリアルタイムでペルシャ語テキストに翻訳

CoVOST2テストセットで11.43 BLEUスコアを達成

会議議事録翻訳

英語会議録音を自動でペルシャ語テキスト記録に翻訳

🚀 S2T-SMALL-COVOST2-EN-FA-ST

s2t-small-covost2-en-fa-st は、エンドツーエンドの音声翻訳（ST）用にトレーニングされた音声からテキストへのTransformer（S2T）モデルです。 S2Tモデルはこの論文で提案され、このリポジトリで公開されています。

🚀 クイックスタート

このモデルは、英語の音声をエンドツーエンドでペルシア語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

エンドツーエンドの音声翻訳（ST）に対応
オートレグレッシブな方式でトランスクリプト/翻訳を生成

📦 インストール

このモデルを使用するには、必要なパッケージをインストールする必要があります。以下のいずれかの方法でインストールできます。

追加の音声依存関係としてインストール

pip install transformers"[speech, sentencepiece]"

パッケージを個別にインストール

pip install torchaudio sentencepiece

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-covost2-en-fa-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-covost2-en-fa-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=48_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

注意事項

⚠️ 重要提示

Speech2TextProcessor オブジェクトは torchaudio を使用してフィルタバンク特徴を抽出します。この例を実行する前に、torchaudio パッケージをインストールしてください。

📚 ドキュメント

モデルの説明

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計されたTransformerベースのシーケンスツーシーケンス（エンコーダ-デコーダ）モデルです。音声入力は、エンコーダに入力される前に、畳み込みダウンサンプラーによって3/4に縮小されます。モデルは、標準的なオートレグレッシブクロスエントロピー損失でトレーニングされ、トランスクリプト/翻訳をオートレグレッシブに生成します。

想定される用途と制限

トレーニングデータ

s2t-small-covost2-en-fa-st は、CoVoST2 の英語-ペルシア語サブセットでトレーニングされています。CoVoSTは、Common Voice に基づく大規模な多言語STコーパスで、これまでで最大のオープンデータセットを使用してST研究を促進するために作成されました。

トレーニング手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャネルログメルフィルタバンク特徴を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、文字ベースのSentencePiece語彙を使用してトークン化されます。

トレーニング

モデルは、標準的なオートレグレッシブクロスエントロピー損失と SpecAugment を使用してトレーニングされます。エンコーダは音声特徴を受け取り、デコーダはトランスクリプトをオートレグレッシブに生成します。モデルのトレーニングを加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前学習されています。

評価結果

CoVOST2の英語-ペルシア語のテスト結果（BLEUスコア）：11.43

BibTeX引用

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}