s2t-small-mustc-en-it-stオープンソース音声翻訳モデル - 無料でデプロイして英語とイタリア語の音声翻訳を実現

ホーム

S2t Small Mustc En It St

facebookによって開発

Transformerベースのエンドツーエンド音声翻訳モデルで、英語からイタリア語への音声翻訳タスク向けに設計されています。

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #英語-イタリア語音声翻訳 #エンドツーエンド音声処理 #TED講演翻訳

ダウンロード数 1,331

リリース時間 : 3/2/2022

モデル概要

このモデルはシーケンス・ツー・シーケンスのTransformerモデルで、英語音声を直接イタリア語テキストに変換でき、自動音声認識や音声翻訳タスクに適しています。

モデル特徴

エンドツーエンド音声翻訳

英語音声から直接イタリア語テキストを生成し、中間の転写ステップが不要です。

Transformerアーキテクチャベース

標準的なTransformerエンコーダ-デコーダ構造を採用し、優れたシーケンスモデリング能力を持っています。

畳み込みダウンサンプリング

エンコーダの前に畳み込み層を使用して音声特徴をダウンサンプリングし、処理効率を向上させます。

多言語サポート

英語からイタリア語への音声翻訳タスクをサポートしています。

モデル能力

英語音声認識

英語からイタリア語への音声翻訳

使用事例

音声翻訳

TED講演リアルタイム翻訳

英語のTED講演をリアルタイムでイタリア語テキストに翻訳します。

MuST-Cテストセットで22.7 BLEUスコアを達成

会議議事録翻訳

英語の会議録音を自動的にイタリア語の会議議事録に翻訳します。

🚀 S2T-SMALL-MUSTC-EN-IT-ST

s2t-small-mustc-en-it-stは、エンドツーエンドの音声翻訳（ST）用に学習された音声からテキストへのTransformer（S2T）モデルです。 S2Tモデルはこの論文で提案され、このリポジトリで公開されました。

🚀 クイックスタート

s2t-small-mustc-en-it-stは、英語の音声をイタリア語のテキストにエンドツーエンドで翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

エンドツーエンドの音声翻訳（ST）に特化したトランスフォーマーベースのseq2seqモデルです。
畳み込みダウンサンプラーを使用して、音声入力の長さを3/4に短縮し、エンコーダーに入力します。
標準的な自己回帰的クロスエントロピー損失で学習され、自己回帰的に文字起こし/翻訳を生成します。

📦 インストール

torchaudio と sentencepiece パッケージをインストールする必要があります。以下のいずれかの方法でインストールできます。

追加の音声依存関係としてインストール:
```
pip install transformers"[speech, sentencepiece]"
```
パッケージを個別にインストール:
```
pip install torchaudio sentencepiece
```

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-mustc-en-it-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-mustc-en-it-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=16_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

注意事項

⚠️ 重要提示

Speech2TextProcessor オブジェクトは torchaudio を使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudio パッケージをインストールしてください。

📚 ドキュメント

モデルの説明

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計された、トランスフォーマーベースのseq2seq（エンコーダー-デコーダー）モデルです。音声入力は、畳み込みダウンサンプラーによって長さが3/4に短縮された後、エンコーダーに入力されます。モデルは、標準的な自己回帰的クロスエントロピー損失で学習され、自己回帰的に文字起こし/翻訳を生成します。

想定される用途と制限

このモデルは、英語の音声をイタリア語のテキストにエンドツーエンドで翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

使い方

これは標準的なシーケンストゥシーケンスのトランスフォーマーモデルであるため、音声特徴量をモデルに渡して generate メソッドを使用して文字起こしを生成できます。

🔧 技術詳細

学習データ

s2t-small-mustc-en-it-st は、MuST-C の英語-イタリア語サブセットで学習されています。 MuST-Cは、多言語音声翻訳コーパスであり、そのサイズと品質により、英語から複数の言語への音声翻訳のエンドツーエンドシステムの学習が可能になります。各ターゲット言語について、MuST-Cは英語のTEDトークの数百時間の音声録音を含み、それらは手動の文字起こしと翻訳と文レベルで自動的にアラインされています。

学習手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLAC音声ファイルから自動的にKaldi互換の80チャンネルのログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。テキストは小文字に変換され、SentencePieceを使用して語彙サイズ8,000でトークン化されます。

学習

モデルは、標準的な自己回帰的クロスエントロピー損失で学習され、SpecAugment を使用します。エンコーダーは音声特徴量を受け取り、デコーダーは自己回帰的に文字起こしを生成します。モデルの学習を加速し、より良いパフォーマンスを得るために、エンコーダーは英語のASR用に事前学習されています。

評価結果

MuST-Cの英語-イタリア語のテスト結果（BLEUスコア）: 22.7

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

BibTeX引用

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}