🚀 Wav2Vec2-XLS-R-2b-21-EN
FacebookのWav2Vec2 XLS-Rを音声翻訳用にファインチューニングしたモデルです。このモデルは、音声の翻訳タスクに特化しており、様々な言語から英語への翻訳が可能です。

これはSpeechEncoderDecoderModelモデルです。エンコーダはfacebook/wav2vec2-xls-r-2b
のチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50
のチェックポイントからウォームスタートされました。その結果、エンコーダ - デコーダモデルはCovost2データセットの21の{lang}
-> en
の翻訳ペアでファインチューニングされました。
このモデルは以下の音声言語から英語 (en
) への翻訳が可能です。
{fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
} -> en
詳細については、公式XLS - R論文のセクション 5.1.2 を参照してください。
🚀 クイックスタート
デモ
このモデルは、このモデルカードの音声認識ウィジェットで直接テストすることができます!可能な音声言語のいずれかで音声を録音するか、サンプルの音声ファイルを選択して、チェックポイントが入力をどれだけうまく翻訳できるかを確認してください。
例
これは標準的なシーケンス-to-シーケンスのトランスフォーマーモデルであるため、音声特徴量をモデルに渡して generate
メソッドを使用して文字起こしを生成することができます。
このモデルは、ASRパイプラインを介して直接使用することができます。
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")
translation = asr(audio_file)
または、以下のようにステップバイステップで使用することもできます。
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
💻 使用例
基本的な使用法
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")
translation = asr(audio_file)
高度な使用法
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
🔧 技術詳細
このモデルは、エンコーダがfacebook/wav2vec2-xls-r-2b
から、デコーダがfacebook/mbart-large-50
からウォームスタートされたエンコーダ - デコーダモデルです。そして、Covost2データセットの21の{lang}
-> en
の翻訳ペアでファインチューニングされています。
📄 ライセンス
このモデルは apache - 2.0
ライセンスの下で提供されています。
結果 {lang}
-> en
このモデルのCovost2でのパフォーマンスについては、XLS - R (2B) の行を参照してください。

その他の {lang}
-> en
音声翻訳用のXLS - Rモデル
情報テーブル
| 属性 | 详情 |
|------|------|
| サポート言語 | `fr`, `de`, `es`, `ca`, `it`, `ru`, `zh-CN`, `pt`, `fa`, `et`, `mn`, `nl`, `tr`, `ar`, `sv-SE`, `lv`, `sl`, `ta`, `ja`, `id`, `cy` |
| データセット | common_voice、multilingual_librispeech、covost2 |
| パイプラインタグ | automatic-speech-recognition |
| ライセンス | apache-2.0 |
ウィジェットサンプル