s2t-small-covost2-ca-en-stオープンソース音声翻訳モデル - 無料でカタルーニャ語から英語への音声翻訳を実現

Home

S2t Small Covost2 Ca En St

Developed by facebook

これはTransformerベースのエンドツーエンド音声翻訳モデルで、カタルーニャ語から英語への音声翻訳タスク専用です。

音声認識

Transformers

Supports Multiple LanguagesOpen Source License:MIT #カタルーニャ語から英語への翻訳 #エンドツーエンド音声翻訳 #多言語サポート

Downloads 15

Release Time : 3/2/2022

Model Overview

このモデルはシーケンス・ツー・シーケンスのTransformerモデルで、自動音声認識と音声翻訳のために設計されており、畳み込みダウンサンプラーを使用して音声入力を処理します。

Model Features

エンドツーエンド音声翻訳

音声入力から直接翻訳テキストを生成し、中間の書き起こしステップが不要です。

畳み込みダウンサンプラー

畳み込み層を使用して音声入力の長さを短縮し、処理効率を向上させます。

多言語サポート

カタルーニャ語から英語への翻訳タスクをサポートしています。

Model Capabilities

音声翻訳

自動音声認識

Use Cases

音声翻訳サービス

リアルタイム音声翻訳

カタルーニャ語音声を英語テキストにリアルタイムで翻訳

CoVOST2テストセットで17.85 BLEUスコアを達成

🚀 S2T-SMALL-COVOST2-CA-EN-ST

s2t-small-covost2-ca-en-stは、エンドツーエンドの音声翻訳（ST）用にトレーニングされた音声からテキストへのTransformer（S2T）モデルです。このS2Tモデルは、この論文で提案され、このリポジトリで公開されています。

🚀 クイックスタート

このモデルは、エンドツーエンドのカタルーニャ語の音声を英語のテキストに翻訳するために使用できます。他のS2Tチェックポイントを探すには、モデルハブを参照してください。

✨ 主な機能

S2Tは、エンドツーエンドの自動音声認識（ASR）と音声翻訳（ST）用に設計された、Transformerベースのseq2seq（エンコーダ - デコーダ）モデルです。音声入力をエンコーダに入力する前に、畳み込みダウンサンプラーを使用して音声入力の長さを3/4に短縮します。このモデルは、標準的な自己回帰的交差エントロピー損失でトレーニングされ、自己回帰的に文字起こし/翻訳を生成します。

📦 インストール

Speech2TextProcessorオブジェクトはtorchaudioを使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudioパッケージをインストールする必要があります。

以下のいずれかの方法でインストールできます。

追加の音声依存関係としてインストール: pip install transformers"[speech, sentencepiece]"
パッケージを個別にインストール: pip install torchaudio sentencepiece

💻 使用例

基本的な使用法

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
from datasets import load_dataset
import soundfile as sf

model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-covost2-ca-en-st")
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-covost2-ca-en-st")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

ds = load_dataset(
    "patrickvonplaten/librispeech_asr_dummy",
    "clean",
    split="validation"
)
ds = ds.map(map_to_array)

inputs = processor(
    ds["speech"][0],
    sampling_rate=48_000,
    return_tensors="pt"
)
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])

translation = processor.batch_decode(generated_ids, skip_special_tokens=True)

注意事項

⚠️ 重要提示

Speech2TextProcessorオブジェクトはtorchaudioを使用してフィルタバンク特徴量を抽出します。この例を実行する前に、torchaudioパッケージをインストールする必要があります。

💡 使用建议

これは標準的なシーケンストゥシーケンスTransformerモデルであるため、generateメソッドを使用して、音声特徴量をモデルに渡すことで文字起こしを生成できます。

📚 ドキュメント

トレーニングデータ

s2t-small-covost2-ca-en-stは、CoVoST2のカタルーニャ語 - 英語のサブセットでトレーニングされています。CoVoSTは、Common Voiceに基づく大規模な多言語STコーパスで、これまでで最大のオープンデータセットを使用したST研究を促進するために作成されました。

トレーニング手順

前処理

音声データは、PyKaldiまたはtorchaudioを介してWAV/FLACオーディオファイルから自動的にKaldi互換の80チャンネルログメルフィルタバンク特徴量を抽出することで前処理されます。さらに、各サンプルに対して発話レベルのCMVN（ケプストラム平均と分散正規化）が適用されます。

テキストは小文字に変換され、文字ベースのSentencePiece語彙を使用してトークン化されます。

トレーニング

このモデルは、標準的な自己回帰的交差エントロピー損失とSpecAugmentを使用してトレーニングされています。エンコーダは音声特徴量を受け取り、デコーダは自己回帰的に文字起こしを生成します。モデルのトレーニングを加速し、より良いパフォーマンスを得るために、エンコーダは英語のASR用に事前トレーニングされています。

🔧 技術詳細

評価結果

CoVOST2のca-enのテスト結果（BLEUスコア）: 17.85

BibTeXエントリと引用情報

@inproceedings{wang2020fairseqs2t,
  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},
  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},
  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},
  year = {2020},
}