s2t-small-mustc-en-fr-stオープンソース音声翻訳モデル - 無料で英語からフランス語への音声翻訳を実現

ホーム

S2t Small Mustc En Fr St

facebookによって開発

S2Tアーキテクチャに基づくエンドツーエンドの英語からフランス語への音声翻訳モデル、MuST-Cデータセットでトレーニング済み

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #エンドツーエンド音声翻訳 #英語からフランス語への翻訳 #TEDトーク翻訳

ダウンロード数 2,326

リリース時間 : 3/2/2022

モデル概要

これはTransformerベースのシーケンス・ツー・シーケンスモデルで、英語音声からフランス語テキストへの翻訳タスク専用に設計されています。モデルは畳み込みダウンサンプラーを使用して音声入力を処理し、自己回帰方式で翻訳結果を生成します。

モデル特徴

エンドツーエンド音声翻訳

中間の書き起こしステップなしで、音声入力から直接テキスト翻訳を生成

畳み込みダウンサンプリング

エンコード前に畳み込み層を使用して音声入力の長さを3/4に削減し、処理効率を向上

多言語サポート

英語からフランス語への翻訳タスクに特化して最適化

SpecAugment拡張

トレーニング時にSpecAugmentデータ拡張技術を使用してモデルの堅牢性を向上

モデル能力

英語音声認識

英語からフランス語テキストへの翻訳

エンドツーエンド音声処理

使用事例

音声翻訳

TEDトークリアルタイム翻訳

英語のTEDトークをリアルタイムでフランス語テキストに翻訳

MuST-Cテストセットで32.9 BLEUスコアを達成

会議議事録翻訳

英語の会議録音を自動的にフランス語の会議議事録に翻訳

🚀 S2T-SMALL-MUSTC-EN-FR-ST

s2t-small-mustc-en-fr-st は、エンドツーエンドの音声翻訳（ST）用にトレーニングされた音声からテキストへのTransformer（S2T）モデルです。このS2Tモデルは、この論文で提案され、このリポジトリで公開されました。

🚀 クイックスタート

このモデルは、エンドツーエンドの英語の音声をフランス語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

エンドツーエンドの音声翻訳をサポート
英語の音声をフランス語のテキストに翻訳可能

📦 インストール

このモデルを使用するには、torchaudio と sentencepiece パッケージが必要です。以下のコマンドでインストールできます。

追加の音声依存関係としてインストール:

pip install transformers"[speech, sentencepiece]"

パッケージを個別にインストール:

pip install torchaudio sentencepiece

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-mustc-en-fr-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-mustc-en-fr-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=16_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

注意事項

⚠️ 重要提示

Speech2TextProcessor オブジェクトは torchaudio を使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudio パッケージをインストールしてください。

📚 ドキュメント

モデルの説明

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）を目的とした、Transformerベースのseq2seq（エンコーダ-デコーダ）モデルです。このモデルは、音声入力をエンコーダに入力する前に、畳み込みダウンサンプラーを使用して音声入力の長さを3/4に縮小します。モデルは、標準的な自己回帰的な交差エントロピー損失でトレーニングされ、自己回帰的に文字起こし/翻訳を生成します。

想定される用途と制限

トレーニングデータ

s2t-small-mustc-en-fr-st は、MuST-C の英語-フランス語サブセットでトレーニングされています。MuST-Cは、多言語の音声翻訳コーパスであり、そのサイズと品質により、英語から複数の言語への音声翻訳のエンドツーエンドシステムのトレーニングが容易になります。各ターゲット言語について、MuST-Cは、英語のTEDトークからの数百時間の音声録音を含み、これらは手動の文字起こしと翻訳と文レベルで自動的にアライメントされています。

トレーニング手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLAC音声ファイルから自動的にKaldi互換の80チャンネルのログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、SentencePieceを使用して語彙サイズ8,000でトークン化されます。

トレーニング

モデルは、標準的な自己回帰的な交差エントロピー損失と SpecAugment を使用してトレーニングされます。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。モデルのトレーニングを加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前学習されています。

評価結果

英語-フランス語のMuST-Cテスト結果（BLEUスコア）: 32.9

🔧 技術詳細

S2Tは、Transformerベースのseq2seq（エンコーダ-デコーダ）モデルで、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）を目的としています。音声入力は、畳み込みダウンサンプラーを使用して長さが3/4に縮小された後、エンコーダに入力されます。モデルは、標準的な自己回帰的な交差エントロピー損失でトレーニングされ、自己回帰的に文字起こし/翻訳を生成します。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

BibTeX引用

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | エンドツーエンドの音声翻訳用Transformerモデル |
| トレーニングデータ | [MuST-C](https://ict.fbk.eu/must-c/) の英語-フランス語サブセット |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご