Wav2Vec2 XLS - Rオープンソース音声翻訳モデルで、無料でデプロイして英語から15言語への翻訳を実現

ホーム

Wav2vec2 Xls R 300m En To 15

facebookによって開発

FacebookのWav2Vec2 XLS - Rモデルを微調整して、多言語音声翻訳タスクに使用します。英語から15言語への翻訳をサポートします。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声翻訳 #英語から15言語への翻訳 #XLS - Rアーキテクチャに基づく

ダウンロード数 167

リリース時間 : 3/2/2022

モデル概要

これはSpeechEncoderDecoderModelに基づく音声翻訳モデルで、英語の口頭語を15種類の異なる書面言語に翻訳することができます。

モデル特徴

多言語サポート

英語から15言語への翻訳をサポートします

XLS - Rアーキテクチャに基づく

先進的なWav2Vec2 XLS - R 300Mモデルをエンコーダとして採用しています

エンドツーエンドの音声翻訳

音声入力からテキスト出力までの直接的な翻訳フロー

モデル能力

英語音声認識

多言語テキスト翻訳

音声からテキストへの変換

使用事例

音声翻訳

英語からドイツ語への翻訳

英語の口頭語をリアルタイムでドイツ語のテキストに翻訳します

Covost2データセットで良好な性能を示します

多言語会議記録

英語の会議録音を複数言語のテキスト記録に翻訳します

🚀 Wav2Vec2-XLS-R-300M-EN-15

FacebookのWav2Vec2 XLS-Rを音声翻訳用にファインチューニングしたモデルです。このモデルは、英語の音声を複数の言語に翻訳することができ、音声翻訳タスクに適しています。

model image

これはSpeechEncoderDecoderModelモデルです。エンコーダはfacebook/wav2vec2-xls-r-300mチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50チェックポイントから初期化されました。その結果、エンコーダ - デコーダモデルはCovost2データセットの15のen -> {lang}翻訳ペアでファインチューニングされました。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformersとdatasetsライブラリをインストールできます。

pip install transformers datasets

✨ 主な機能

英語の音声を複数の言語に翻訳できます。
エンコーダとデコーダのチェックポイントを利用して、効率的にファインチューニングされています。
標準的なシーケンス-to-シーケンストランスフォーマーモデルであり、generateメソッドを使用して翻訳を生成できます。

💻 使用例

基本的な使用法

from datasets import load_dataset
from transformers import pipeline

# select correct `forced_bos_token_id`
MAPPING = {
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-300m-en-to-15", feature_extractor="facebook/wav2vec2-xls-r-300m-en-to-15")

translation = asr(audio_file, forced_bos_token_id=forced_bos_token_id)

高度な使用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# select correct `forced_bos_token_id`
MAPPING = {
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"], forced_bos_token_id=forced_bos_token_id)
transcription = processor.batch_decode(generated_ids)

📚 ドキュメント

このモデルは、英語の音声を以下の書面言語に翻訳できます。 en -> {de, tr, fa, sv-SE, mn, zh-CN, cy, ca, sl, et, id, ar, ta, lv, ja}

詳細な情報については、公式XLS - R論文のセクション5.1.1を参照してください。

🔧 技術詳細

このモデルは、エンコーダとデコーダのチェックポイントを組み合わせて構築されています。エンコーダはfacebook/wav2vec2-xls-r-300mから初期化され、デコーダはfacebook/mbart-large-50から初期化されます。そして、Covost2データセットの15の翻訳ペアでファインチューニングされています。