s2t-small-mustc-en-nl-stオープンソース音声翻訳モデル - 無料で英語からオランダ語への音声翻訳を実現

ホーム

S2t Small Mustc En Nl St

facebookによって開発

S2Tアーキテクチャに基づくエンドツーエンド音声翻訳モデルで、英語からオランダ語への音声翻訳タスク向けに設計されています

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #エンドツーエンド音声翻訳 #英語-オランダ語変換 #TED講演翻訳

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャを採用しており、英語音声を直接オランダ語テキストに変換でき、リアルタイム音声翻訳シナリオに適しています

モデル特徴

エンドツーエンド音声翻訳

中間の転写ステップなしで、音声入力から直接翻訳テキストを生成します

効率的な音声処理

畳み込みダウンサンプラーにより音声入力の長さを3/4に削減し、処理効率を向上させます

多言語サポート

英語からオランダ語への翻訳に特化していますが、アーキテクチャは他の言語ペアへの拡張をサポートしています

データ拡張

SpecAugment技術を使用してトレーニングデータの多様性を向上させます

モデル能力

音声認識

音声翻訳

英語からオランダ語への翻訳

リアルタイム音声処理

使用事例

リアルタイム翻訳

会議リアルタイム翻訳

英語のスピーチをリアルタイムでオランダ語字幕に翻訳します

スムーズな異言語間コミュニケーション体験を提供します

マルチメディアコンテンツ翻訳

英語の動画/音声コンテンツをオランダ語字幕に翻訳します

オランダ語ユーザーが英語コンテンツを理解するのを支援します

支援ツール

言語学習支援

オランダ語学習者が英語音声コンテンツを理解するのを支援します

言語学習効率を向上させます

🚀 S2T-SMALL-MUSTC-EN-NL-ST

s2t-small-mustc-en-nl-stは、エンドツーエンドの音声翻訳（ST）用に訓練された音声からテキストへのTransformer（S2T）モデルです。このモデルは、英語の音声をオランダ語のテキストに翻訳するために使用できます。

🚀 クイックスタート

このモデルは、英語の音声をオランダ語のテキストにエンドツーエンドで翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計された、Transformerベースのseq2seq（エンコーダ - デコーダ）モデルです。
畳み込みダウンサンプラーを使用して、音声入力をエンコーダに入力する前に3/4に縮小します。
標準的な自己回帰的クロスエントロピー損失で訓練され、自己回帰的に文字起こし/翻訳を生成します。

📦 インストール

pip install transformers"[speech, sentencepiece]" を使用して追加の音声依存関係をインストールするか、pip install torchaudio sentencepiece を使用してパッケージを個別にインストールできます。

⚠️ 重要提示

Speech2TextProcessorオブジェクトはtorchaudioを使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudioパッケージをインストールしてください。

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-mustc-en-nl-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-mustc-en-nl-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=16_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

📚 ドキュメント

訓練データ

s2t-small-mustc-en-nl-stは、MuST-Cの英語 - オランダ語サブセットで訓練されています。MuST-Cは、英語からいくつかの言語への音声翻訳用のエンドツーエンドシステムの訓練を容易にする、多言語音声翻訳コーパスです。

訓練手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャネルログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、SentencePieceを使用して語彙サイズ8,000でトークン化されます。

訓練

モデルは、標準的な自己回帰的クロスエントロピー損失とSpecAugmentを使用して訓練されます。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。モデルの訓練を加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前訓練されています。

評価結果

MuST-Cの英語 - オランダ語のテスト結果（BLEUスコア）：27.3

🔧 技術詳細

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計された、Transformerベースのseq2seq（エンコーダ - デコーダ）モデルです。畳み込みダウンサンプラーを使用して、音声入力をエンコーダに入力する前に3/4に縮小します。モデルは、標準的な自己回帰的クロスエントロピー損失で訓練され、自己回帰的に文字起こし/翻訳を生成します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

BibTeX引用

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}