s2t-small-mustc-en-de-stオープンソース音声翻訳モデル - 無料で英語からドイツ語への音声文字変換を実現

ホーム

S2t Small Mustc En De St

facebookによって開発

英語からドイツ語へのエンドツーエンド音声翻訳のために訓練された音声テキスト変換モデル

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #エンドツーエンド音声翻訳 #英語からドイツ語 #TEDトーク翻訳

ダウンロード数 156

リリース時間 : 3/2/2022

モデル概要

Transformerベースのシーケンス・ツー・シーケンスモデルで、エンドツーエンド音声翻訳のために特別に設計されており、英語からドイツ語への音声翻訳タスクをサポート

モデル特徴

エンドツーエンド音声翻訳

英語音声入力から直接ドイツ語テキスト出力を生成、中間の書き起こしステップ不要

畳み込みダウンサンプリング

エンコード前に畳み込み層を使用して音声入力の長さを3/4に削減、処理効率向上

SpecAugment訓練

SpecAugmentデータ拡張技術を採用しモデルの頑健性を向上

モデル能力

英語音声認識

英語からドイツ語翻訳

エンドツーエンド音声翻訳

使用事例

音声翻訳

TEDトークリアルタイム翻訳

英語TEDトークをリアルタイムでドイツ語テキストに翻訳

MuST-Cテストセットで22.7 BLEUスコア達成

会議音声翻訳

英語会議の音声内容をドイツ語テキスト記録に翻訳

🚀 S2T-SMALL-MUSTC-EN-DE-ST

s2t-small-mustc-en-de-st は、エンドツーエンドの音声翻訳（ST）用にトレーニングされた音声からテキストへのTransformer（S2T）モデルです。このS2Tモデルはこの論文で提案され、このリポジトリで公開されています。

✨ 主な機能

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計された、Transformerベースのseq2seq（エンコーダ - デコーダ）モデルです。このモデルは、畳み込みダウンサンプラーを使用して、音声入力をエンコーダに入力する前に3/4に短縮します。標準的な自己回帰的クロスエントロピー損失を使用してトレーニングされ、自動回帰的に文字起こし/翻訳を生成します。

🚀 クイックスタート

このモデルは、エンドツーエンドの英語の音声をドイツ語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

使い方

これは標準的なシーケンス-to-シーケンスのTransformerモデルであるため、音声特徴をモデルに渡して generate メソッドを使用して文字起こしを生成できます。

⚠️ 重要提示

Speech2TextProcessor オブジェクトは torchaudio を使用してフィルタバンク特徴を抽出します。この例を実行する前に、torchaudio パッケージをインストールしてください。

💡 使用建议

追加の音声依存関係として pip install transformers"[speech, sentencepiece]" でインストールするか、pip install torchaudio sentencepiece でパッケージを個別にインストールすることができます。

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-mustc-en-de-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-mustc-en-de-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=16_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

📦 インストール

追加の音声依存関係として、pip install transformers"[speech, sentencepiece]" でインストールするか、pip install torchaudio sentencepiece でパッケージを個別にインストールできます。

📚 ドキュメント

トレーニングデータ

s2t-small-mustc-en-de-stは、MuST-C の英語 - ドイツ語サブセットでトレーニングされています。MuST-Cは多言語音声翻訳コーパスで、そのサイズと品質により、英語から複数の言語への音声翻訳のエンドツーエンドシステムのトレーニングが可能になります。各ターゲット言語について、MuST-Cは英語のTEDトークの数百時間の音声録音を含み、これらは手動の文字起こしと翻訳と文レベルで自動的にアライメントされています。

トレーニング手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャンネルログメルフィルタバンク特徴を抽出することで前処理されます。さらに、各サンプルに発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、SentencePieceを使用して語彙サイズ8,000でトークン化されます。

トレーニング

モデルは、標準的な自己回帰的クロスエントロピー損失を使用し、SpecAugment を使用してトレーニングされます。エンコーダは音声特徴を受け取り、デコーダは自動回帰的に文字起こしを生成します。モデルのトレーニングを加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前トレーニングされています。

評価結果

英語 - ドイツ語のMuST-Cテスト結果（BLEUスコア）：22.7

BibTeXエントリと引用情報

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}